每天拿出一分钟来学习,你的生命会更加精彩。

易语言采集今日头条知乎免js思路

发布:洪雨2020-9-20 17:12分类: 编程相关 标签: 易语言

    现在很多网站因为信息量非常大,同时用户和浏览频率也非常的高。

    洪雨不太懂网页方面的东西,不知道是什么原因,或许是访问速度的问题……很多平台都采用js显示网页列表的形式展现网页。

    众所周知,js展现网页很简洁,但是搜索引擎是不收录的。

    这些平台就直接放弃了列表页的收录和排名,直接使用js来加载。

    如果想要采集这类网站,比如今日头条和知乎这样的网站,就需要一定的js功底。虽然可以抓包到关键链接,但是里面里面的重要参数全部来自于js。

    洪雨网页方面的技术不行,js几乎等于不会,无法剥离调用js代码算不出参数来。

    怎么办?

    办法只有一个,就是靠浏览器来运行js,然后直接采集结果。

    通过易语言自带的浏览器组件,最好是miniblink,因为知乎更邪门,居然直接不支持ie,所以超文本浏览框也不行。

    用组件直接浏览网页,该拖动的拖动,该触发的触发,将js彻底运行完毕,让网页展示完整。

    然后用组件取源码,就能获得源代码了,这时候就可以采集相关链接了。

    这种方法的弊端就是效率比较低,需要一定的模拟,但是功能却很强大,直接跳过复杂困难的js,直接肉眼所见即所得。

    无论你js的参数多么的难计算,统统跳过!

温馨提示如有转载或引用以上内容之必要,敬请将本文链接作为出处标注,谢谢合作!

已有 0/2312 人参与

发表评论:

欢迎使用手机扫描访问本站,还可以关注微信哦~