防止火车头等采集器采集的一些简单方法分享

2018-5-4 / 6 评论 / 10265 阅读

舍力自己也用采集器采集过文章的,所以对网站防采集有一些心得体会,今天就给大家分享一些采用动态不规则的html标签防止采集的方法



随机代码:

<?php echo dechex(rand(1,888888));?>

舍力分析:如果css中用[.sheli]来确定参数,那么<div class="sheli">与<div class="slsj sheli">对于页面显示效果一样,但是作为采集器的标记就是两个不同标记了,如果每次页面的html标签内空格数随机,那么采集规则 就失效了。但是,这对搜索引擎爬虫没多大影响。 

操作方法:将循环的div中calss最前面加入随时代码,要注意空格;例如
<div class="<?php echo dechex(rand(1,888888));?> sheli">

适合网站:所有PHP动态且不想遵守网页设计规范的网站。

温馨提示:舍力提供的这个方法也只是给采集器增加一些困难,高手还是能采集到你网站的数据的。

评论一下?

OωO
取消
    1. 头像
      无毒蝎子
      第5楼
      没啥乱用,火车头也可以正则匹配,你写半天,我一个规则就搞定了
      回复
      1. 头像
        舍力
        @无毒蝎子:不一定用在防采集上,很多地方可以用的上的。
        回复
    1. 头像
      亚克力浴缸
      第4楼
      火车头采集有点复杂
      回复
    1. 头像
      米扑博客
      地板
      非常精妙的随机数,正好有用,赞一个
      回复
    1. 头像
      网站建设
      板凳
      学习了,谢谢分享
      回复
    1. 头像
      残影
      沙发
      谢谢分享
      回复