现在很多网站因为信息量非常大,同时用户和浏览频率也非常的高。
洪雨不太懂网页方面的东西,不知道是什么原因,或许是访问速度的问题……很多平台都采用js显示网页列表的形式展现网页。
众所周知,js展现网页很简洁,但是搜索引擎是不收录的。
这些平台就直接放弃了列表页的收录和排名,直接使用js来加载。
如果想要采集这类网站,比如今日头条和知乎这样的网站,就需要一定的js功底。虽然可以抓包到关键链接,但是里面里面的重要参数全部来自于js。
洪雨网页方面的技术不行,js几乎等于不会,无法剥离调用js代码算不出参数来。
怎么办?
办法只有一个,就是靠浏览器来运行js,然后直接采集结果。
通过易语言自带的浏览器组件,最好是miniblink,因为知乎更邪门,居然直接不支持ie,所以超文本浏览框也不行。
用组件直接浏览网页,该拖动的拖动,该触发的触发,将js彻底运行完毕,让网页展示完整。
然后用组件取源码,就能获得源代码了,这时候就可以采集相关链接了。
这种方法的弊端就是效率比较低,需要一定的模拟,但是功能却很强大,直接跳过复杂困难的js,直接肉眼所见即所得。
无论你js的参数多么的难计算,统统跳过!
发表评论: