文本关键词提取方法及具体操作步骤。

在搜索引擎中,通过处理海量的文本关键词进而尽可能满足用户搜索需求是搜索引擎核心,无论一篇文章的长短,搜索引擎都可以通过提取关键词的方法来判断整篇文章的主题,因此如何判断一篇文章的核心关键词是什么非常重要,下面关于为什么要做关键词提取以及基于TF-IDF的文本关键词抽取方法作简单介绍。

文本关键词提取方法及具体操作步骤。

为什么要做关键词提取

关键字提取是文本挖掘领域的一个重要组成部分。从文本中提取关键词有三种方法:监督、半监督和无监督。监督关键字提取算法是将关键字提取算法构造为两类问题来判断文档中的词或短语是否为关键字。由于这是一个分类问题,因此有必要提供标记的训练预测。训练语料库用于训练关键词提取模型。根据该模型,对需要提取关键字的文档的关键字提取算法进行了半监督。

构造关键词提取模型只需要少量的训练数据,然后利用模型对新文本进行检查。关键字提取,手动筛选这些关键字,并将筛选后的关键字添加到培训集以重新培训模型。无监督的方法不需要手动标记语料库。一些方法被用来寻找文本中更重要的词作为关键字并提取关键字。监督文本关键字提取算法要求人工成本高,现有的文本关键字提取主要采用无监督关键字提取,适用性强。

文本关键字提取的过程如下:无监督文本关键字提取流程图无监督关键字提取算法可分为三类:基于统计特征的关键字提取、基于词图模型的关键字提取和基于主题模型的关键字提取。基于统计特征的文本关键字提取算法基于统计特征的关键字提取算法基于统计特征的关键字提取算法是利用文档中的统计信息提取关键字。

一般情况下,文本经过预处理得到候选词集,然后通过特征值量化从候选词集中获得关键词。基于统计特征的关键词提取方法的关键是采用何种特征值量化指标。

基于TF-IDF的文本关键词抽取方法

词频(Term Frequency,TF)

指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频,因此根据文件的长度,需要对给定词语进行归一化,即用给定词语的次数除以当前文件的总词数。

逆向文件频率(Inverse Document Frequency,IDF)

是一个词语普遍重要性的度量。即如果一个词语只在很少的文件中出现,表示更能代表文件的主旨,它的权重也就越大;如果一个词在大量文件中都出现,表示不清楚代表什么内容,它的权重就应该小。

TF-IDF的主要思想是,如果某个词语在一篇文章中出现的频率高,并且在其他文章中较少出现,则认为该词语能较好的代表当前文章的含义。即一个词语的重要性与它在文档中出现的次数成正比,与它在语料库中文档出现的频率成反比。

TF-IDF是对文本所有候选关键词进行加权处理,根据权值对关键词进行排序。假设Dn为测试语料的大小,该算法的关键词抽取步骤如下所示:

文本关键词提取方法及具体操作步骤。

(1) 对于给定的文本D进行分词、词性标注和去除停用词等数据预处理操作。本分采用结巴分词,保留'n','nz','v','vd','vn','l','a','d'这几个词性的词语,最终得到n个候选关键词,即D=[t1,t2,…,tn] ;

(2) 计算词语ti 在文本D中的词频;

(3) 计算词语ti 在整个语料的IDF=log (Dn /(Dt +1)),Dt 为语料库中词语ti 出现的文档个数;

(4) 计算得到词语ti 的TF-IDF=TF*IDF,并重复(2)—(4)得到所有候选关键词的TF-IDF数值;

(5) 对候选关键词计算结果进行倒序排列,得到排名前TopN个词汇作为文本关键词。

上述关于文本关键词提取方法及具体操作步骤作简单介绍,希望这些知识对您有所帮助!

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/67267.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
优化家优化家订阅用户
上一篇 2022年8月24日 23:55
下一篇 2022年8月24日 23:55

相关推荐

  • 什么是seo内容营销?解决用户需求就是seo优化使命。

    内容应该是一个SEOER并不陌生的因素。内容的输出是每个人获得流量的重要途径。然而,在内容的使用方面,SEOER应该在过去几年有很深的经验,例如: 以前,我们注重网站内容的增加,通过原创度高的内容来增加平台,为…

    2023年2月25日
    06
  • sem竞价,自然排名,百度推广的差异和优缺点。

    通常我们所说的“网站排名”是指网站在搜索引擎中除了竞价推广之外的自然排名,而且经常有链接在花钱推广之前自然排名,这是SEO无法超越的;我们做的SEO也是网页在搜索引擎中的自然排名。在搜索引擎中,排名分为两类…

    2023年3月1日
    02
  • 高质内容与高质量外链是提高网站权重的决定性因素。

    网站就像一件艺术品。要想在搜索引擎中排名靠前,提高整个网站的流量,提高用户对网站的信任度,提高网站的权重就显得非常重要。如何快速提高自己网站的权重,还是决定网站权重的一个重要因素。 目前,外部链接的状…

    2023年2月20日
    00
  • 为确保网站建设符合搜索引擎体验。

    可用性元素:搜索引擎旨在为在其平台上搜索的用户提供尽可能的结果。这是确保客户满意并让用户回来的方法。广告越多,顾客越多,利润就越多。   现在我们都知道仅仅关注PC的可用性是不够的。移动可用性在…

    2022年9月3日
    069
  • 准确关键词的挖掘定位是做关键词排名的前提。

    网站优化与网站建设与设计、关键词定位与选择、布局规划等诸多因素密切相关。因此,准确定位关键词是优化网站的前提。那么我们如何选择关键词呢?接下来我们一起看看吧。 1、关键词搜索数量分析但不要太宽泛 网站关…

    2023年2月18日
    04
  • 网站优化的核心流量是什么?如何用seo引流。

    大多数人做SEO,容易忽视我们做SEO的初衷,这也是我前面提到的SEO核心。你可以冷静想想。我们网站做SEO的初衷是排名吗?是流量吗?或者转换率?从表面上看,网站最直接的目的是排名,最终目标是获得更高的转化率,…

    2023年2月28日
    00
  • 网站优化中如何降低网站相似度。

    如果页面相似度过高,会导致页面收录问题。以下方法可以用来降低页面相似度。现在很多CMS都有寻呼功能。您可以使用此函数将原始连续文章剪切成多个段落,并通过分页显示它们。这样做的好处是,它不仅可以减少相似度…

    2023年2月23日
    05
  • 网站优化人员如何利用软文推广。

      软文推广伴随着互联网的兴起,越来越受到企业的重视,特别是网站优化,可是很多企业确是对于这一新的网络营销手段的运用理解往往不够深刻,所以很难实现利用软文推广来达到网站优化的Z佳效果,那么怎么做才能利…

    2022年8月23日
    080

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息