网站建设 网络推广 网站营销 软件开发 案例展示 新闻资讯 关于我们 联系我们
合肥拓野网络公司新闻资讯
网站布局之TF-IDF算法
来源: | 发布日期:2018-05-05 次 | 人气:1428

网站布局之TF-IDF算法,说白了在我理解来,这个算法就是通过一个的数学计算,来确定每个词在文章中的权重,从而得到一篇文章的关于词的带权重的向量,知道了这个以后就好办了,之后什么文章关键字提取、概述、不同的文章之前的相似性比较都引刃而解了。



求一个词的权重就用到TF-IDF算法,其实TF-IDF算法是分为TF(Term Frequency,缩写为TF)与IDF(Inverse Document Frequency,缩写为IDF)的计算。



说起来也简单,TF就是这个词在文章中的词频,出现的次数比上文章的总次数或者出现次数最高的词的个数。而IDF则是表示TF-IDF算法分母上加一是为了防止分母为零。


TF-IDF


这个数学的表达式也符合情理,如果关键字(除去“的”、“为了”之类的去除字)在越多的文档中出现,它在本篇文章中的权重自然就低了,举个简单的例子:给你一个关键字计算机,你一点也不知道这货表达的意思,因为(从这个算法角度讲)它在太多的文章中出现,但是如果你的关键字为0day就不一样了,包含它的文档数远远小于包含关键字“计算机”的文档数。由此,如果在同一篇文章里,如果“0day”与“计算机”的TF(词频)相同,IDF就可以保证“0day”的权重较高了。



基本的算法就是这样了,其实很简单,但是这个算法是基于这样一个前提,关键词越重要,出现的频率越高。同时忽略了词出现位置的影响,所以这个算法存在漏洞。



 
上一篇:网络安全基本知识
下一篇:合肥拓野网络公司教大家网络劫持的定义
热门资讯
(2020-06-24)2020端午节放假通知 (2018-12-21)移动端seo优化和排名技术怎么实现? (2019-01-11)网站站内优化是非常重要的一个环节,站内SEO优化中如何利用好... (2013-09-09)番茄花园作者被判三年半微软警告win7盗版 (2011-07-11)微软重拳打击番茄花园盗版 醉翁之意不在酒
推荐资讯
(2013-11-08)IBM宣布推开放Linux套装软件挑战Windows 7 (2014-06-12)阿里巴巴信用支付业务是否会冲击银行消费信贷? (2014-05-09)报告称六成IT家电企业使用CN域名 (2013-03-29)拓野网络指出错误的堆积关键词有哪些 (2013-03-26)“2009中国互联网市场年会”3月召开
电商解决方案-专业网络营销部署咨询-成功案例分享-个性定制服务咨询
网站建设
营销套餐 PC端 移动端 域名空间邮箱
网络推广
搜狗竞价 网站优化
网站营销
微信公众号 小程序 朋友圈推广
软件开发
定制软件 手机APP
案例展示
精品案例
网络快讯
公司新闻 行业资讯 媒体报道 网络知识
关于我们
公司简介 企业文化 团队风采 发展历程
联系我们
联系方式 人才招聘 问题反馈 付款方式
Copyright  ©  2008 - 2018  合肥拓野网络科技有限公司, All Rights Reserved 皖ICP备06009261号-4