一站式百度SEO排名优化!-找老刘博客 低投入,高转化,精益求精、一丝不苟:旨在提供更好的SEO服务!

首页>>SEM推广

搜索引擎算法之TF-IDF算法浅析

首页 2020-01-08 SEM推广 1743 ℃Tags: TF-IDF算法


据我所知道TF-IDF算法是一种统计算法,用于对检索的加权。简单的讲其作用是评估一字词对于一个文件的重要程度。这个我们可以简单理解为关键词的一个密度,一个关键词在整个网站中所占据的比重就决定了这个关键词的重要性,在一定程度是会获得加权,也就是能促进关键词的排名状况,那究竟是怎样的,下面我们就一起来看看。

下载.jpg

字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.


我用一个例子来给大家说明情况,比如:一家公司有十个seoer,当天需要写十篇关于seo的文章,然后需要从中选出关于“网站权重seo”的文章,结果您在选择文章的时候发现有两篇文章分别是,“网站权重”在文章出现8次,“seo”出现了两次,而另外一篇是“网站权重”出现2次,“seo”出现了8次,从第一篇文章说明了“网站权重”是比较重要的也就是TF,而seo却是很平凡的,也就是IDF,这个两个比较我们可以看出来第一篇文章参与关键词排名是高于第二篇的,这里是有一个计算的公式的。

公式:

image.png

逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是:如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

公式:

image.png


  某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

TF−IDF=TF∗IDF

但是, 需要注意, 一些通用的词语对于主题并没有太大的作用, 反倒是一些出现频率较少的词才能够表达文章的主题, 所以单纯使用是TF不合适的。权重的设计必须满足:一个词预测主题的能力越强,权重越大,反之,权重越小。所有统计的文章中,一些词只是在其中很少几篇文章中出现,那么这样的词对文章的主题的作用很大,这些词的权重应该设计的较大。IDF就是在完成这样的工作.


TF-IDF算法的定义

什么是TF-IDF?其实这个是两个词的组合,可以拆分为TFIDF

微信图片_20200108144219.jpg

TF(Term Frequency,缩写为TF)也就是词频啦,即一个词在文中出现的次数,统计出来就是词频TF,显而易见,一个词在文章中出现很多次,那么这个词肯定有着很大的作用,但是我们自己实践的话,肯定会看到你统计出来的TF 大都是一些这样的词:‘的’,‘是’这样的词,这样的词显然对我们的分析和统计没有什么帮助,反而有的时候会干扰我们的统计,当然我们需要把这些没有用的词给去掉,现在有很多可以去除这些词的方法,比如使用一些停用词的语料库等。


假设我们把它们都过滤掉了,只考虑剩下的有实际意义的词。这样又会遇到了另一个问题,我们可能发现"中国"、"蜜蜂"、"养殖"这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?


显然不是这样。因为"中国"是很常见的词,相对而言,"蜜蜂"和"养殖"不那么常见。如果这三个词在一篇文章的出现次数一样多,有理由认为,"蜜蜂"和"养殖"的重要程度要大于"中国",也就是说,在关键词排序上面,"蜜蜂"和"养殖"应该排在"中国"的前面。


所以,我们需要一个重要性调整系数,衡量一个词是不是常见词。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。


大家看了定义之后跟我一样是懵的吧,为了便于大家理解,作者再举一个简单易懂的栗子。

假如说我们在百度上搜索“水果”这个词,百度爬虫抓取的网站内容有下面5个,你觉得哪个内容排名第一?

  • 内容1: 水果有水果,水果,水果,水果,水果

  • 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子

  • 内容3: 蔬菜都很好吃,我最爱吃茄子了

  • 内容4: 苹果,梨子都是很好吃的水果

  • 内容5:好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃

相信很多人心里面有了答案,大家凭直觉,内容2 跟 内容5 应该排名靠前,内容5很可能是第1,内容2是排名第2。

其实按照TF-IDF算法也能得出这个结论,那么TF-IDF是怎么做的,请大家跟上我的步伐!


用统计学语言表达,就是在词频的基础上,要对每个词分配一个"重要性"权重。最常见的词("的"、"是"、"在")给予最小的权重,较常见的词("中国")给予较小的权重,较少见的词("蜜蜂"、"养殖")给予较大的权重。这个权重叫做"逆文档频率"(Inverse Document Frequency,缩写为IDF),它的大小与一个词的常见程度成反比。

知道了"词频"(TF)和"逆文档频率"(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。



搜索
分类
热门标签
  • 首页
  • 电话
  • QQ
  • 联系老刘手机
    1043025812
    联系老刘微信
    扫描微信二维码