每天拿出一分钟来学习,你的生命会更加精彩。

数据流快排(点击器)的一点浅薄研究

发布:洪雨2020-3-19 20:48分类: 编程相关 标签: 洪雨seo 编程 黑帽seo

    近几天在精易论坛上一位大神分享了一套源码,是关于百度爬虫的,代码量有点多有点复杂,就简单看了一下。

    这套代码本意应该是,批量利用前一阵兴起的网站统计代码关键词宣传法。利用模拟百度爬虫,来爬取拥有某套统计代码的网站,做到关键词留在网站上,再接用网站的权重进行收录,还是推广的,不记得了。

    这套代码可以指定,可以随机,可以分类随机爬取网站。

    洪雨比较感兴趣的是其中模拟百度蜘蛛这一部分,对快排的开发很有启发。

    百度搜索引擎几乎都是由js代码组成的,它的目的是向服务器传输用户搜索行为,然后让服务器做出反应,传输给用户想要看到的结果。

    那么搜索引擎如何告诉服务器用户的行为呢?

    答案是通过一系列的参数来传达,而这一系列的参数都能对应用户一系列的行为。通过访问由这些参数组成的网址时,网页中的js会自动将数据传达给百度。

    换个角度讲,如果用户没有任何行为,我们只是人为的虚构这些参数,然后组成网址进行访问。网页js同样会向服务器传达这些指令,从而虚构了用户的行为。

    这种东西洪雨八年前就接触过,可惜那时候不懂编程,根本不明白其中的意思。

    数据流快排的重点在于对参数的虚构,以前应该比较容易,现在不知道百度有没有加上什么更加复杂的防御。

    https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=%E6%B4%AA%E9%9B%A8%E8%90%A5%E9%94%80%E6%80%8E%E4%B9%88%E6%A0%B7&oq=%25E6%25B4%25AA%25E9%259B%25A8%25E8%2590%25A5%25E9%2594%2580&rsv_pq=ba2574320014ef5f&rsv_t=5ce3M2OIg0eteRhdSLJOcUKNV3%2FjTlZfcJKUur%2BZtW1YNa92kxPlVtvIMGY&rqlang=cn&rsv_enter=1&rsv_dl=tb&inputT=1464&rsv_sug3=21&rsv_sug1=2&rsv_sug7=000&rsv_sug2=0&rsv_sug4=2011&rsv_sug=1

    随便看看这个网址,是我刚刚胡乱搜索得到的。

    我们可以看到参数很多,比如ie,f,rsv_bp,wd……这些的参数都是可以构建出来的,不过要想真正有效,还要把前提都做足,不能直接访问这个结果,要把之前的网址全部都访问一遍。

    就好像我们吃三个馒头能吃饱,但第一个和第二个也一定要吃,一个道理。 现在参数重点应该在于cook和isid的构建。

    快排是一个非常厉害的东西,既然你能够通过模拟给自己的网站增长权重,那么同样你也可以做到给别人的网站降权甚至K站。

    洪雨不知道现在百度的投票规则到底如何运作,但是当年是可以的。

    这种软件开发,测试时间和测试工作量都是挺大的,所以我建议个人的话做个模拟的点击器弄个拨号vps用用就行了,虽然效率低,但是好开发。

温馨提示如有转载或引用以上内容之必要,敬请将本文链接作为出处标注,谢谢合作!

已有 0/1758 人参与

发表评论:

欢迎使用手机扫描访问本站,还可以关注微信哦~