每天拿出一分钟来学习,你的生命会更加精彩。

洪雨seo:百度专利重复检测

发布:洪雨2022-7-9 15:14分类: 洪雨seo 标签: 洪雨seo

第一种是提取要检测的网页的文本。文本提取的方法是阻止网页,然后获取文本块,然后提取文本块中的文章。
在提取文章的内容之后,对文本进行分段,然后对每个句子进行转换和过滤(特殊字符),并且对较长的一个或多个句子进行散列以获得网页的句子签名。
然后将具有相同句子签名的文章划分为一个类。我们称之为页面集,然后对页面集下的文章做出下一个判断。在这里,我们必须计算一些签名。
1.网页正文的simhash签名
2.真实标题的哈希签名
3.标签标题的哈希签名
4.网页摘要的哈希签名
5. Web内容的哈希签名
6.位置签名散列签名
7.评论消息的哈希签名
8.资源签名(资源签名是通过对网页中图片资源,声音资源,视频资源或下载链接资源的url进行散列签名操作获得的)
9.Hash签名的URL文件名(url文件名签名是通过对网页url中文件名的散列签名操作获得的)
完成这些计算后,您可以进行下一步。真正重复页面的示例是:
1.两个网页的真实标题签名是相同的。
2.两个网页的网页内容签名是相同的。
3.两个网页的网页签名(simhash)的位数差异小于6。
4.两个网页的页面位置签名相同,url文件名签名相同。
5.注释块签名,资源签名,标记标题签名,摘要签名和URL文件名签名中的三个签名相同。
通过比较两页或两页,您可以获得真正重复的网址集合。通常,如果该真实URL集合中的页面数量/整个页面集合中的页面数量是> 30%,然后整个页面集被认为是真正的重复,否则它是一个假的重复。
温馨提示如有转载或引用以上内容之必要,敬请将本文链接作为出处标注,谢谢合作!

已有 0/176 人参与

发表评论:

欢迎使用手机扫描访问本站,还可以关注微信哦~