雨哲浅谈关于防采集而不影响收录内容篇

2025-02-18 23:11:36

让站长最头痛的事，除了程序和服务器安全外，可能就要算内容被采集了。当然，现在网络本身就是资源共享，我这里不谈采集的对错，只是就防采集说说个人看法。

一、如何分辨搜索爬虫
以前，在网上看到过关于用asp代码来捕捉搜索爬虫的代码，通过代码把爬虫的访问记录记录到文件。就此代码（原作者未知）我作了修改，加入程序中防采集。现做成函数，直接在页面中调用。

代码如下:

Function CheckSearchRobots(SearchRobotsAgent)
CheckSearchRobots = False
'自定义搜索爬虫，因篇幅关系，这里只是加入国内主要搜索引擎爬虫部分记录
        Dim SearchRobots:SearchRobots="Baidu@Baidu|Google@Google|crawler@alexa|Yahoo@Yahoo|sohu@Sohu|MSN@MSN|QihooBot@Qihoo"
        dim ArrSearchRobots,ArrSearchRobots2,SearchRobotsTrue,SearchRobotsName,iSearchRobots
        SearchRobotsTrue = False
        ArrSearchRobots = split(SearchRobots,chr(124))
        For iSearchRobots = 0 To Ubound(ArrSearchRobots)
                ArrSearchRobots2 = split(ArrSearchRobots(iSearchRobots),"@")
                If Instr(lcase(SearchRobotsAgent),lcase(ArrSearchRobots2(0))) > 0 then
                        SearchRobotsTrue=true:SearchRobotsName=ArrSearchRobots2(1):exit for
                End If
        Next
        If SearchRobotsTrue and len(SearchRobotsName)>0 then'如果是爬虫,就更新爬虫信息
   CheckSearchRobots = True
        End If
End Function

将以上代码放在asp程序中（具体如何放置请参考相关文章），然后在需要调用的地方作如下调用： If CheckSearchRobots(SearchRobotsAgent) = False Then
Response.Write "非搜索引擎，可作部分限制！" '这里可以加入判断指定时间的刷新次数，比如在正常情况下，访问速度是N次/分，如果超过这个次数（超常规访问）就可以限制了。
End If
二、限制超常规访问。
下面说说如何限制别人的超常规访问。下面代码来源于互联网（原作者未能找到）。我作了部分修改和说明。

代码如下:

Sub CheckAppeal()
Dim AppealNum,AppealCount
AppealNum=10 '同一IP60秒内请求限制次数
'雨哲[Yz81.Com]站长测试结果一，如果限制为10次，动易采集结果,一分钟能采集成功12篇，失败8篇。
'雨哲[Yz81.Com]站长测试结果二，如果限制为8次，动易采集结果,一分钟能采集成功9篇，失败11篇。
AppealCount=Request.Cookies(AppealCookies)
If AppealCount="" Then
  Response.Cookies(AppealCookies)=1
  AppealCount=1
  response.cookies(AppealCookies).expires=dateadd("s",60,now())
Else
  response.Cookies(AppealCookies)=AppealCount+1
  response.cookies(AppealCookies).expires=dateadd("s",60,now())
End If
if int(AppealCount)>int(AppealNum) then
  Response.Write "兄弟，爬了这么久，歇会儿吧，别累坏了身体！"
  '这里的提示完全可以自定义，我的做法是另外转到一个和当前文章模板完全一致的页面，当然内容是自定义的。
  '有兴趣的朋友也可以采集<a class="channel_keylink" href="http://www.yuzhe.name">雨哲</a>在线的http://www.yz81.com/wanzhuan/频道下面的文章。
  Response.end
End If
End Sub

将以上代码放在asp程序中（具体如何放置请参考相关文章），然后在需要调用的地方作如下调用：
Call CheckAppeal()

雨哲浅谈关于防采集而不影响收录内容篇

让站长最头痛的事,除了程序和服务器安全外,可能就要算内容被采集了.当然,现在网络本身就是资源共享,我这里不谈采集的对错,只是就防采集说说个人看法. 一.如何分辨搜索爬虫以前,在网上看到过关于用asp代码来捕捉搜索爬虫的代码,通过代码把爬虫的访问记录记录到文件.就此代码(原作者未知)我作了修改,加入程序中防采集.现做成函数,直接在页面中调用. 复制代码代码如下: Function CheckSearchRobots(SearchRobotsAgent) CheckSear
网站生成静态页面攻略4:防采集而不防搜索引擎策略

从前面的我讲的采集原理大家可以看出,绝大多数采集程序都是靠分析规则来进行采集的,如分析分页文件名规则.分析页面代码规则. 一.分页文件名规则防采集对策大部分采集器都是靠分析分页文件名规则,进行批量.多页采集的.如果别人找不出你的分页文件的文件名规则,那么别人就无法对你的网站进行批量多页采集. 实现方法: 我认为用MD5加密分页文件名是一个比较好的方法,说到这里,有人会说,你用MD5加密分页文件名,别人根据此规则也可以模拟你的加密规则得到你的分页文件名.
浅谈防火墙对FTP的影响及故障排除分析

FTP是常见的基于TCP的网络服务,它使用了两个TCP连接来建立逻辑通信信道,即控制连接和数据连接.当客户端与服务器建立一个FTP会话时,使用TCP创建一个持久的控制连接以传递命令和应答.当发送文件和其它数据传输时,它们在独立的TCP数据连接上进行传递,这个连接根据需要创建和拆除. 更为复杂的是,FTP标准指定了创建数据连接的两种不同方法,即正常(主动)数据连接和被动数据连接.FTP的控制连接总是由客户端首先发起的,主动数据连接是由服务器端发起的,被动数据连接是由客户端发起的. 成功建立控制连接
浅谈Hibernate n+1问题

在Session的缓存中存放的是相互关联的对象图.默认情况下,当Hibernate从数据库中加载Customer对象时,会同时加载所有关联的 Order对象.以Customer和Order类为例,假定ORDERS表的CUSTOMER_ID外键允许为null 以下Session的find()方法用于到数据库中检索所有的Customer对象: List customerLists=session.find("from Customer as c"); 运行以上find()方法时,Hiber
浅谈Java操作符与其优先级

几乎所有运算符都只能操作"主类型"(Primitives).例外是"="."= ="和"! =",它们能操作所有对象.除此以外,String类支持"+"和"+=". 基本类型存储了实际的数值.而并非指向一个对象的引用.所以在为其赋值的时候,是直接把一个地方的内容复制到了另一个地方.例如,对基本数据类型使用a=b,那么b的内容就复制给了a.若接着修改了a,而b根本不会受这种修改的影响.(在
浅谈Python中的模块

模块为了编写可维护的代码,我们把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少,很多编程语言都采用这种组织代码的方式.在Python中,一个.py文件就称之为一个模块(Module). 使用模块有什么好处? 当一个模块编写完毕,就可以被其他地方引用.我们在编写程序的时候,也经常引用其他模块,包括Python内置的模块和来自第三方的模块. 模块还可以避免函数名和变量名冲突.相同名字的函数和变量完全可以分别存在不同的模块中.但是也要注意,尽量不要与内置函数名字冲突. 如果不
浅谈C#六大设计原则

笔者作为一个菜鸟,会尝试以简单的代码和容易理解的语句去解释这几种原则的特性和应用场景. 这六种原则分别为单一职责原则.接口隔离原则.里氏替换原则.迪米特法则.依赖倒置原则.开闭原则. 单一职责原则单一职责原则(SRP:Single responsibility principle),规定一个类中应该只有一个原因引起类的变化. 单一职责原则的核心就是解耦和增强内聚性. 问题: // 假设此类是数据库上下文 public class DatabaseContext { } public class
浅谈C# 字段和属性

一.浅谈访问修饰符作用:设定访问权限,限制类中的成员(属性.方法等)可访问的范围,访问范围通常有,类的内部.类的外部. 最常用的类型:private(私有的,仅类的内部使用):public(公有的,没有访问限制) 注意:类的成员在定义的时候没有显示的写出访问修饰符,则默认是private.对应到字段和属性中,通常字段修饰为private,属性修饰为public. 二.字段的使用 1.关于字段 a.字段又称为:"成员变量",一般在类的内部做数据交互使用. b.字段命名规范:camel命
浅谈Python中的继承

继承 Python 中所有的类都是object类的子类,而object 继承自type 继承分为接口继承和实现继承接口继承:使用父类的接口名,子类重写这个方法.尽可能的继承接口类,在子类中实现方法,鼓励对接口类的多继承,这样遵循接口隔离原则,有利于归一化设计,不提倡对抽象类进行多继承实现继承:子类不需要实现任何东西,直接使用父类接口和实现会增强代码的耦合性,不推荐使用. 一些细节类继承最终要被实例化,我们多数时候使用的还是对象而不是类.因此我们还是来一点点看继- 继承的过程承仅仅是一种
浅谈如何降低软件复杂性

前言在进行软件开发时,我们常常会追求软件的高可维护性,高可维护性意味着当有新需求来时,系统易扩展:当出现bug时,开发人员易定位.而当我们说一个系统的可维护性太差时,往往指的是该系统太过复杂,导致给系统增加新功能时容易出现bug,而出现bug之后又难以定位. 那么,软件的复杂性又是如何定义的呢? John Ousterhout给出的定义如下: Complexity is anything related to the structure of a software system that ma

雨哲浅谈关于防采集而不影响收录内容篇

相关推荐

随机推荐