• 17630273926

SEO算法TF-IDF算法简介及其在关键字自动提取中的应用

作者:郑州云优化 / 2020-03-19 20:38 / 浏览次数:
SEO算法TF-IDF算法简介及其在关键字自动提取中的应用
一,TF-IDF算法简介:
TF-IDF算法是一种通常用于信息检索和数据挖掘的加权技术。TF代表术语频率,IDF代表反向文档频率TF-IDF是一种传统的统计算法,用于评估给定文档在一组文档中单词的重要性。它与当前文档中此单词的频率成正比,与文档集中其他单词的频率成反比。
TF-IDF算法
其次,使用TF-IDF算法自动提取关键字:
有一篇很长的文章。我想使用计算机来提取其对关键短语的自动提取,而无需任何人工干预。如何正确执行?这个问题涉及计算机的许多前沿领域,例如数据挖掘,文字处理和信息检索,但是出乎意料
的是,有一种非常简单的经典算法可以给出令人满意的结果。它是如此简单以至于它不需要高级数学,而普通人只需10分钟就可以理解它。这是我今天要介绍的TF-IDF算法。让我们从一个例子开始。假
设有一篇长篇文章“中国SEO的未来发展方向在哪里”?我们将使用计算机提取您的关键字。
一个容易想到的想法是找到最常出现的单词。如果一个单词很重要,则在本文中应多次出现。因此,我们执行“术语频率”统计(缩写为TF)。最后,您必须已经猜到最常用的单词是----“”,“is”,“at”----此类别中最常用的单词。它们被称为“停用词”,即,不利于找到结果且必须过滤的词。假设我们全部过滤掉它们,只考虑剩下的重要单词。这样,又遇到了另一个问题:我们可以发现“中国”,“发展”和“方向”这三个词出现了很多次。这是否意味着它们与关键字同等重要?显然不是。因为“中国”是一个非常普遍的词,相对而言,“发展”和“方向”并不那么普遍。如果这三个词在文章中出现的次数相同,则有理由认为“发展”和“方向”比“中国”更重要,也就是说,在分类上关键字“发展”和“地址”必须在“中国”前面。因此,我们需要一个重要度调整系数来衡量一个单词是否是一个普通单词。在本文中出现了很多次,它可能反映了本文的特征,这是我们需要的关键字。
以统计语言表示,根据单词的频率,为每个单词分配“重要性”的权重。最常见的单词(“”,“es”,“en”)的权重最小,最常见的单词(“中国”)的权重较小,最不常见的单词(“development”,“address”)?n“))赋予更大的权重。该权重称为“文档反频率”(IDF),其大小与单词的常见程度成反比。
知道“单词频率”(TF)和“反向文档频率”(IDF)后,将这两个值相乘即可得出单词的TF-IDF值。单词对文章越重要,其TF-IDF值就越大。因此,第一个单词是本文的关键字。
这是此算法的详细信息。
第一步是计算单词的出现频率:
TF-IDF算法
考虑到文章的篇幅,以利于不同文章的比较,标准化了“词频”。
TF-IDF算法
第二步是计算文档的逆频率:
这时,需要一个语料库来模拟语言使用环境。
TF-IDF算法
单词越常见,分母越大,文档的逆频率越低,则越接近零。分母增加1以防止分母为0(即,所有文档均不包含单词)。log表示获得的值的对数。
第三步是计算TF-IDF:
TF-IDF算法
如您所见,TF-IDF与单词在文档中出现的次数成正比,与单词在整个语言中出现的次数成反比。因此,自动提取关键字的算法非常明确:它是计算文档中每个单词的TF-IDF值,然后以降序排列它们(从第一个单词开始)。
以“中国养蜂”为例,假设文本的长度为1000个单词,并且“中国”,“蜜蜂”和“小鱼苗”分别出现20次,则出现“单词频率”(TF)这三个字0.02。然后,通过Google搜索发现,假设有250亿个中文页面,其中包含“”字样的页面。有623万个页面包含“中国”,4.884亿个页面包含“蜜蜂”,而9,730万个页面包含“农业”。因此,您的反向文档频率(IDF)和TF-IDF如下:
TF-IDF算法
从上表可以看出,“蜜蜂”的TF-IDF值最高,“文化”第二,而“中国”最低。(如果还计算单词“”的TF-IDF,则该值将非常接近0。)因此,如果仅选择一个单词,则“bee”是本文的关键字。
除了自动提取关键字外,TF-IDF算法还可以在许多其他地方使用。例如,在信息检索期间,对于每个文档,可以分别计算一组搜索词(“中国”,“蜜蜂”,“农业”)的TF-IDF,并且可以添加它们以获得TF-IDF。值最高的文档与搜索词最相关。
TF-IDF算法的优点是简单,快速,结果更符合实际情况。缺点是仅靠“单词频率”来衡量一个单词的重要性还不够完整,有时重要的单词可能不会经常出现。而且,该算法不能反映单词位置信息,并且首先出现的单词和之后出现的单词被认为具有同等重要性,这是不正确的。(一种解决方案是赋予第一段和每个段落的第一句更多的权重)。
第三,应用TF-IDF算法查找类似文章:
让我们研究另一个相关主题。有时,除了查找关键字之外,我们还希望查找与原始文章相似的其他文章。例如,“Google新闻”还在热门新闻下提供了多个类似的新闻。
TF-IDF算法
要查找相似项,您需要“余弦相似度”。下面,我举一个例子来说明什么是“余弦相似度”。
为了简单起见,让我们从以下句子开始:
句子A:我喜欢看电视,但是我不想看电影
句子B:我不喜欢看电视或看电影
如何计算前两个句子的相似度?
基本思想是:如果这两个句子中的单词更相似,则它们的内容应更相似。因此,您可以从单词出现的频率开始,并计算它们的相似度。
第一步是分词。
句子-答:我/喜欢/看/电视,而不是/喜欢/看/电影。
句子B:我不喜欢/看/电视,我也不喜欢/看/电影。
第二步是列出所有单词。
我也喜欢看,看电视,看电影。
第三步是计算单词的频率。
句子A:我为1,我为2,我看到2,电视为1,电影为1,否为1,也为0。
句子B:我1,是2,我看到2,电视1,电影1,不是2,也是1。
第四步是写字频率向量。
句子A:[1、2、2、1、1、1、0]
句子B:[1、2、2、1、1、1、2、1]
此时,问题是如何计算这两个向量的相似度。
我们可以将它们视为空间中的两个线段,它们均从原点([0,0,...])开始并指向不同的方向。在两个线段之间形成一个角度。如果??角度为0度,则表示方向相同且线段重合。如果?角度为90度,则表
示形成了一个正确的?角度,并且方向完全不同。如果?角为180度,则表示方向恰好相反。因此,我们可以通过夹角的大小来判断向量的相似性。直径越小,越相似。
以二维空间为例,上图中的a和b是两个向量,我们需要计算它们的夹角??。余弦定理告诉我们可以使用以下公式找到它:
假设向量a为[x1,y1],向量b为[x2,y2],则余弦定理可以重写如下:
数学家已经表明,这种余弦计算方法对于n维向量也有效。假设A和B是两个n维向量,则A为[A1,A2,...,An],而B为[B1,B2,...,Bn],则??角??的余弦A和B等于:
使用此公式,我们可以获得句子A和句子B之间的夹角余弦。
余弦值越接近1,夹角越接近0度,即两个向量越相似,这称为“余弦相似度”。因此,上面的句子A和句子B非常相似,实际上它们的角度约为20.3度。
由此,我们有了一种“查找相似项目”的算法:
(1)使用TF-IDF算法查找这两篇文章的关键词;
(2)为每个项目取出一些关键字(例如20个),将它们组合成一个集合,并为该集合中的单词计算每个项目的词频(为避免项目长度的差异,您可以使用相对词)
(3)为每篇文章生成词频向量;
(4)计算两个向量的余弦的相似度:值越大,相似度越大。
“余弦相似度”是一个非常有用的??算法,只要它可用于计算两个向量的相似度即可。
【郑州云优化】郑州SEO、网站建设、网站设计、服务器空间租售、网站维护、网站托管、网站优化、百度推广、自媒体营销、微信公众号
如有意向---联系我们
热门栏目
热门资讯
热门标签

网站建设 网站托管 成功案例 新闻动态 关于我们 联系我们 服务器空间 加盟合作 网站优化

备案号:ICP备*********号 网站地图/sitemap 

公司地址:河南省郑州市郑州云优化 咨询QQ:1774525808 手机:17630273926 电话:17630273926