做seo我们通常想到最落地的事就是每天更新原创文章。
原创文章虽然是让人头疼的事情,但更让人头疼的是,你明明是自己写的文章,已经够原创了,但是百度还是不收录。
而别人明明是采集的文章,甚至一点没改,反而收录的很好。
抛开网站权重,洪雨来说说到底为什么。
首先,飓风算法,针对的就是站群形式的采集站和垃圾站。
但,当你仔细查阅百度对这个算法的描述,你会发现,其实百度不是说不让采集,而是让你采集以后加上转载出处,不是不让采集,而是版面要整理好,让浏览者体验好。百度打击的是那些没有体验的烂站。
好了,事实上,中国互联网发展到今天,该写的文章几乎都写的差不多了,有些行业你让他挖空心思也写不出什么新东西了,你还不让别人采集,你这不是要人命吗。所以百度还是很人性的,允许采集但不能明说。
然后洪雨说本次的重点。
页面的原创度,现在已经是百度收录一个很重要的评判标准。
如果你是做优化的,很早应该就听说过模板原创这个点。就是做网站,如果有开发能力,最好原创模板来做站。因为代码是原创的,每个页面就算没有文章也都是全网少有的,百度一定更喜欢收录这样的站。
在前些年,这个点一直没有被人们重视,其实百度也对这个点在意的少些,因为有大量的原创内容需要收录。
但随着整个互联网内容的相对饱和,原创内容的逐渐减少,百度的算法自然对代码也是原创的网站有一定的倾向。
之前的泛站群,就有模板原创功能,说白了就是代码伪原创。虽然网站看起来都一样,但是里面的代码差别很大,当你查看的时候,会发现大量的无用html和css代码。
因为标签都不全,所以这些东西都不会显示出来,不过百度蜘蛛确实都爬取过了。
不过这种方法近期销声匿迹,洪雨不做这些,所以不知道具体情况,或许因为做泛站的人少了,或许因为大部分人不知道,或许是因为百度屏蔽了不完整代码的,或许是因为洪雨分析的站少孤陋寡闻……
再说说红极一时的文章乱码原创方法。
在早期,人们用的方法是用纯乱码,穿插的文章里,或者直接就是满篇的乱码。
这些乱码是从哪里来的呢?
举个例子,你随便找一个软件,或者压缩包,然后修改文件后缀名为.txt。用文本文档打开这个txt,你会发现里面全是乱码,发布这些乱码,绝对的百分百原创,百度喜欢的不得了。
当然,这样垃圾到不能再垃圾的内容,很快被百度屏蔽了,因为实现起来很简单,因为那些字谁都不认识,一过滤就行了。
近期,比较厉害的是加ascll码,对于这些编码浏览器会自动给转换的,但有的ascll码是被舍弃的,浏览器是不认的,所以不显示,浏览者也看不到。不过在网页源码中还是存在,那么蜘蛛就能爬取到。
蜘蛛一看,好家伙,这是个啥,从来没见过,全网独一份那么先收录再说。不过现在也销声匿迹了,估计跟当年的乱码一样,要么被屏蔽,要么没有盛行起来。
最近分析网站,洪雨发现一个能够综合代码和文章,实现全页面原创的方法,洪雨这里提出一个概念,页面原创比例。
原理很简单,首先……
第一步,就是在页面的开头构建大量随机css标签随机定义,但不调用,这样增加了代码原创度,但浏览者看不到页面的任何变化。
第二步,对文章的代码处理,文章的每句话都进行单独的标签标注。比如字号,字体,颜色,字间距,行间距……可以用css也可以直接用html的标签。
这样你会发现,本来100字的文章,占整个页面代码比例10%。用标注一扩充,占了整个页面的20%。在不改变页面效果的情况下提高了原创度。
注意事项,想要页面原创度高,文章字数最好在1000字以上,洪雨建议在3000字以上,这样的话就算不用处理,也能提升自身的原创比例。
再就是对文章句子的标注,单个页面一定要统一,如果随机了,你会发现文字有大有小,颜色各异,浏览者体验就会很差,飓风算法对排版要求很严格,百度是可以识别的。
ok,这样就大功告成,回头洪雨写个这样的文章处理工具,实现批量化。
最后总结,采集不可怕,伪原创也不可怕,可怕的是瞎采集乱排版!
发表评论: