每天拿出一分钟来学习,你的生命会更加精彩。

关于文章采集随便聊两句

发布:洪雨2020-10-9 8:57分类: 洪雨论 标签: 自言自雨

    洪雨以前做seo除了伪原创,就是手动采集几篇改改,效果还不错。

    所以,一直都没有采集过。

    像火车头这样老牌的采集工具,在八年前就听说过,貌似这个软件到今年有十个年头了。

    这么多年,这样一个响当当的工具,我却没有真的去了解过。

    后来自己有一定开发能力了,需要采集一些东西了,就自己写了,更没兴趣了解了……

    今天没事,把市面上几款比较出名的软件都安装看了一遍,总结一下。

    火车头,确实很强大,以前一直以为他是通过get或者post得到源码,然后正则。可事实上,不是。

    记得以前我的seo启蒙老师开发了一个简单万能网页采集小工具。都不需要正则。当时洪雨觉得真是厉害啊,连我这个小白都会用。

    后来也尝试开发了一个……才发现,要想采集的好,根本没那么简单,当年老师开发的也没那么好用,简单就代表不万能。

    洪雨写的软件一直都想傻瓜式,让小白都能快速上手使用,但是简单了,功能就不强大了,所以两者之间的平衡,确实很难掌握。

    就像火车头如此厉害的工具,每一个版本都会有人专门做教程,来教你怎么用。就代表,软件强大归强大,但使用门槛太高。

    读取网页源码后筛选内容,然后采集,是很简单的一个过程。

    但是,现在很多网站都使用js来加载内容,如果不会解析js,就读取不到内容源码。

    而且每个网站的js都不同,这样门槛就高了,采集软件不可能解析出每个网站的js,所以注定软件的逻辑不可能那么高级。

    洪雨水平有限,对js解析基本一窍不通,但是,无论js怎么运作,最后总要显示给用户看的。所以只需要让浏览器运行完js后,我们再采集就行了。

    这就导致效率低很多,我们需要浏览器做辅助进行浏览,浏览一个网页,我们采集一个。

    面对像今日头条这样js显示的网页,洪雨只能用这种傻瓜式的开发。也管不了什么效率不效率,能采集到就是了。

    今天看了市面上的采集软件,惊奇的发现,也是用我的这种逻辑在采集。

    通过浏览器打开页面,等页面加载完整后再采集链接,然后打开链接,再采集内容。

    那些软件高级的地方,就是自动分析了框架,不用你再正则内容了,用鼠标一点就能选中要采集的部分,然后他每篇文章都采集这一部分。

    说实话,洪雨有些失望,以为这些收费那么高的商业软件有什么奇淫巧技呢,结果没有。

    当然了,大批量的采集,就相当于攻击这个网站。所以很多网站都会加以限制。

    道高一尺魔高一丈,采集工具加上换ip,加上清除cook,加上换浏览器,这都是基本配置。其实大部分软件也不是真的换了浏览器,只是换了ua罢了。

    在这种前提下,要想提高效率,只能依靠多线程。

    这就出现了很多弊端,如果你电脑配置不行,多个浏览器长时间跑,有可能扛不住,而且关于换ip,软件大多配的是代理ip功能,这个代理ip你还需要另外花钱。

    所以,要想真正做到傻瓜式采集,还是要有一定开发能力,开发针对某个网站的独立采集工具。

    这样你只需要填写一个关键词,然后一键采集,自动导出。   

    对seo来说,采集一直是个刚需,因为大部分人的原创能力都有限。就算有能力,你的效率和数量都是有限的。

    关于采集,洪雨打算……

温馨提示如有转载或引用以上内容之必要,敬请将本文链接作为出处标注,谢谢合作!

已有 0/1500 人参与

发表评论:

欢迎使用手机扫描访问本站,还可以关注微信哦~