雨哲防采集策略之列表篇

2025-04-03 11:22:06

在一般的链接地址形式如：

代码如下:

1、<a class="链接样式" href="链接地址" title="链接说明" target="_blank">文章标题</a>
2、<a class='链接样式' href='链接地址' title='链接说明' target='_blank'>文章标题</a>

大家注意看上面两行代码，有一个区别就是第一个中间使用的是双引号，第二个使用的是单引号。一般来说，如果在文章列表页面都使用双引号或者使用单引号，很容易让采集者找到文章路径（开始代码：href=' ，结束代码：' ）。

那如果我们混合着用，也就是有的使用单引号，有的使用双引号，那么就会给采集者带来一定的麻烦。至少他不能采集到所有文章（如果采集程序差一点的话可能一篇也采集不到）。

在上面的基础上，更深入一步将A中间的参数进行随机排列：

代码如下:

然后再在其中混用单双引号，在href=后面还可以不使用引号。那么采集者将不能正确获取列表页面中文章地址。

再深入一步，可以在列表中加入干扰码，如把链接部分重复加一次空白链接，（<a href="链接地址" title="链接说明" target="_blank" class="链接样式"></a>），那么如果对方能够获取一部分文章地址，或者能够采集一部分文章，那么这部分文章也肯定是重复的。

在进行以上修改后，我想大部分采集者都会知难退的哈。缺点就是代码不太标准。以上仅雨哲个人观点。

雨哲防采集策略之列表篇

在一般的链接地址形式如: 复制代码代码如下: 1.<a class="链接样式" href="链接地址" title="链接说明" target="_blank">文章标题</a> 2.<a class='链接样式' href='链接地址' title='链接说明' target='_blank'>文章标题</a> 大家注意看上面两行代码,有一个区别就是第一个中间使用的
网站生成静态页面攻略3:防采集策略

目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策: 一.判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问弊端: 1.此方法只适用于动态页面,如:asp\jsp\php等...静态页面无法判断某个IP一定时间访问本站页面的次数. 2.此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程.此方法也会拒绝搜索引擎蜘蛛收录站内文件采集对策:只能放慢采集速度,或者不采
非常好的网站生成静态页面防采集策略与方法

目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策: 一.判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问弊端: 1.此方法只适用于动态页面,如:asp\jsp\php等...静态页面无法判断某个IP一定时间访问本站页面的次数. 2.此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程.此方法也会拒绝搜索引擎蜘蛛收录站内文件采集对策:只能放慢采集速度,或者不采
雨哲浅谈关于防采集而不影响收录内容篇

让站长最头痛的事,除了程序和服务器安全外,可能就要算内容被采集了.当然,现在网络本身就是资源共享,我这里不谈采集的对错,只是就防采集说说个人看法. 一.如何分辨搜索爬虫以前,在网上看到过关于用asp代码来捕捉搜索爬虫的代码,通过代码把爬虫的访问记录记录到文件.就此代码(原作者未知)我作了修改,加入程序中防采集.现做成函数,直接在页面中调用. 复制代码代码如下: Function CheckSearchRobots(SearchRobotsAgent) CheckSear
网站生成静态页面攻略4:防采集而不防搜索引擎策略

从前面的我讲的采集原理大家可以看出,绝大多数采集程序都是靠分析规则来进行采集的,如分析分页文件名规则.分析页面代码规则. 一.分页文件名规则防采集对策大部分采集器都是靠分析分页文件名规则,进行批量.多页采集的.如果别人找不出你的分页文件的文件名规则,那么别人就无法对你的网站进行批量多页采集. 实现方法: 我认为用MD5加密分页文件名是一个比较好的方法,说到这里,有人会说,你用MD5加密分页文件名,别人根据此规则也可以模拟你的加密规则得到你的分页文件名.
asp动态页面防采集的新方法

昨天在网上看到一个防采集软件,说采集只访问当前网页,不会访问网页的图片.JS等,今天突然想到,通过动态程序和Js访问分别记录访问者的IP,然后进行IP判断,由于采集过程不会访问JS,采集的时候只会查到用动态程序记录的IP,而不会有通过JS记录的IP,从而实现网页程序的防采集. 防采集的原理非常简单,首先放一段动态语句,把访问者的IP加入到数据库的一个表里,然后在页面底部加入一个JS,JS直接访问动态页面,将访问者的IP加入到数据库的另外一个表里.再次访问的时候,从两个表里读IP数据,然后判断时间
十点防采集黄金建议

笔者自己是写采集器的,所以对网站防采集有一些心得体会.因为是在上班时间,各种方法只是简单的提及. 很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同. 相同点: a. 两者都需要直接抓取到网页源码才能有效工作, b. 两者单位时间内会多次大量抓取被访问的网站内容: c. 宏观上来讲两者IP都会变动: d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如
PHP 采集程序原理分析篇

苦想了几天,终于弄明白了里面的道理.在这里写出来,请高手指正. 采集程序的思路很简单,无非就是先打一个页面,一般都是列表页,取得里面全部链接的地址,然后打开逐条链接,寻找我们感兴趣的东西,如果找到,就把它入库或别的处理.下面以一个很简单的例子来说说. 首先确定一个采集页,一般就是列表面了.这里目标是:http://www.jb51.net/article/11/index.htm.这是一个列表页,我们的目的就是采集这个列表页上全部的文章. 有列表页了,第一步先打开它,把它的内容纳入到我们的程序中
使用XML实现BBS(主题列表篇)

表A: 1-0-1,this is a test 3-1-1,this is a test 4-3-1,this is a test 5-3-1,this is a test 2-0-2,this is a test 上面是BBS主题列表的一个例子.一般来说,假如不是使用Oracle(Oracle 有一条查询语句可以自动生成家族树,请查阅Select ... startwith ... connect by ...语句),那么如何实现上例的列表是一件费事的工作(相信许多程序员都写过). 如果我们
网站生成静态页面，及网站数据采集的攻、防原理和策略

发布时间:2005年11月27日晚文章作者:翟振凯 (小琦) 交流方式: 个人站:http://www.xiaoqi.net 技术站:http://www.iisvs.net 商业站:http://www.iisvs.com QQ:53353866 22336848 关于本文: 本着互联网共享主义精神,特写此文献给建站新手,授人以鱼,不如授人以渔,本文所讲的只是方法和原理,希望大家看完此文,能够从中得到些帮助和启发. 本文从一个ASP程序员的角度用大量实例祥细介绍了

雨哲防采集策略之列表篇

相关推荐

随机推荐