百度飓风算法严厉打击恶劣采集,算法一出多少网站被杀了。

引用:”百度搜索于近日推出飓风算法,旨在严厉打击以恶劣采集为内容主要来源的网站,同时百度搜索将从索引库中彻底清除恶劣采集链接,给优质原创内容提供更多展示机会,促进搜索生态良性发展。飓风算法会例行产出惩罚数据,同时会根据情况随时调整迭代,体现了百度搜索对恶劣采集的零容忍。优质原创站点如发现站点索引量大幅减少且流量大幅下滑现象,可在反馈中心进行反馈。”

timg.jpg

按百度飓风算法说的,针对网站采集要进行打击了,其实在这算法之前倒下的一个采集微信各个公众号内容,并以网页形式展示的一个站点已经倒下了。那么我们要来看看这个算法到底都是怎么个规则。

专利篇

百度有很多专利,在这里有一个对网站评论区域更新内容的监控。也就是说页面上某个模块的更新,百度都可以了解到。那么,也就是说如果你是采集的内容,不加任何修改就发布出去,那么恭喜你了飓风算法就是为你准备的。

语义分析篇

百度一直以来都是中文搜索引擎中技术较好的公司,他的语义分析方面也有很多算法。从简单的tf-idf 到分词以及一系列的算法。

分词篇

一段文本,会被打碎成一个一个的字符,循环拼接,从字典里将能形成有价值词的字符分词。然后,就是比对相似度。

啥是相似度呢?

飓风篇

既然是算法,那么就是程序实现,那就是将一段文字分成若干个词。A段 有多少个词,网上其他内容中的 Ax段 有多少个词。

1.内容相似度对比:

A段 与 Ax段 ,字符的对比,和分词后 词与词的对比。从而得到 A段 与Ax段是否存在关联关系。

2.时间对比:

蜘蛛抓取每个页面都会记录一个时间,那么就好比是网站日志里的访问时间。当在全网中发现某个话题时,通过前面的抓取、语义分析、分词、索引、会将这个新产生的话题评分,并与分词的关键词做关联。因此,这个评分会影响该页面在关联关键词搜索结果中的排位。

3.其他因素

网站历史综合得分,单页面质量度,与往期页面质量度均值等一系列项参与运算。最终得出结论,这个页面是否是采集内容页面。根据最终采集页面数量判定网站的是否接受惩罚。

受到波及的网站

小说类

软件站

新闻资讯站

电影站

 

所以,做站要好好做内容还要下功夫,不能图省事。最终,被杀是肯定的。