asp.net(c#)捕捉搜索引擎蜘蛛和机器人

下面是访问日志文件
2008-8-13 14:43:22

Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 1.1.4322)

2008-8-13 14:43:27

Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 1.1.4322)

2008-8-13 14:44:18

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

2008-8-13 14:44:26

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; QQDownload 1.7; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)

2008-8-13 14:45:17

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

打开这个文件,这个文件用于记录访问搜索吧的正常访客或者机器人蜘蛛,从中提取的蜘蛛有: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Gigabot/3.0 (http://www.gigablast.com/spider.html)

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )

Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

msnbot/1.1 (+http://search.msn.com/msnbot.htm)

Baiduspider+(+http://www.baidu.com/search/spider.htm)

代码也十分的简单:


代码如下:

string agent = System.Web.HttpContext.Current.Request.ServerVariables["HTTP_USER_AGENT"];
if (agent == null)
{
Response.Write("Other");
}
else
{
Response.Write(agent);
}

你可以自己用这个代码试下,发现会输出类似: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0; .NET CLR 2.0.50727; .NET CLR 1.1.4322)
结合这个你就可以写一个蜘蛛访问记录了,如何判断正常用户或者蜘蛛?可以粗略的这样来判断:通过判断用户的访问来源页面,比如从jb51.net/index.htm这个文件点进show.asp?id=11那么他的来源页面我们知道就是jb51.net/index.htm,那么粗略判断他就是正常客户。而蜘蛛的来源则不是,把这部分不是的记录下来,再从中选择。可以结合数据库进行记录。

(0)

相关推荐

  • ASP.NET 调用百度搜索引擎的代码

    百度搜索引擎提供了一段嵌入到页面中的代码 <form action="http://www.baidu.com/baidu" target="_blank"> <table><tr><td> <input name=tn type=hidden value=baidu> <input type=text name=word size=80> <input type=hidden name=

  • asp.net和ajax实现智能搜索功能代码

    第一步,先做好搜索页面 复制代码 代码如下: <%@ Page Language="VB" AutoEventWireup="false" CodeFile="Default.aspx.vb" Inherits="_Default" %> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://

  • Asp.net中使用DapperExtensions和反射来实现一个通用搜索

    前言 搜索功能是一个很常用的功能,当然这个搜索不是指全文检索,是指网站的后台管理系统或ERP系统列表的搜索功能.常见做法一般就是在搜索栏上加上几个常用字段来搜索.代码可能一般这样实现 StringBuilder sqlStr = new StringBuilder(); if (!string.IsNullOrEmpty(RealName)) { sqlStr.Append(" and RealName = @RealName"); } if (Age != -1) { sqlStr.

  • asp.net+js实现的ajax sugguest搜索提示效果

    效果图: 功能: 1.可以有方向键上下控制. 2.支持关键字高亮.(在该此次代码中省略) 3.对选中可按回车提交. 使用:重点关注id=tbxsearch和id=search_suggest这两个东东.html部分涉及到定位的问题,自己处理好,有问题可以提问,细节自己把握. 注明:在接收的那个文件,其实应该接收一个参数skey的,我先写死了.记得接收的时候先解码一次. 申明:阿会楠根据网上一份原作者不详的代码进行了修改,以适合自己的项目并增加了多个功能.此次放出的代码为基本实现代码,也是最接近原

  • c#反射表达式树模糊搜索示例

    复制代码 代码如下: public static Expression<Func<T, bool>> GetSearchExpression<T>(string SearchString)        {            Expression<Func<T, bool>> filter = null; if (string.IsNullOrEmpty(SearchString)) return null;            var l

  • asp.net(c#)捕捉搜索引擎蜘蛛和机器人

    下面是访问日志文件2008-8-13 14:43:22 Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 1.1.4322) 2008-8-13 14:43:27 Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 1.1.4322) 2008-8-13 14:44:18 Mozi

  • asp 判断是否为搜索引擎蜘蛛的代码

    复制代码 代码如下: <% function GetBot() '查询蜘蛛 dim s_agent GetBot="" s_agent=Request.ServerVariables("HTTP_USER_AGENT") '关键判断语句 if instr(1,s_agent,"googlebot",1) >0 then GetBot="google" end if if instr(1,s_agent,"

  • PHP判断来访是搜索引擎蜘蛛还是普通用户的代码小结

    1.推荐的一种方法:php判断搜索引擎蜘蛛爬虫还是人为访问代码,摘自Discuz x3.2 <?php function checkrobot($useragent=''){ static $kw_spiders = array('bot', 'crawl', 'spider' ,'slurp', 'sohu-search', 'lycos', 'robozilla'); static $kw_browsers = array('msie', 'netscape', 'opera', 'konq

  • PHP记录搜索引擎蜘蛛访问网站足迹的方法

    本文实例讲述了PHP记录搜索引擎蜘蛛访问网站足迹的方法.分享给大家供大家参考.具体分析如下: 搜索引擎的蜘蛛访问网站是通过远程抓取页面来进行的,我们不能使用JS代码来取得蜘蛛的Agent信息,但是我们可以通过image标签,这样我们就可以得到蜘蛛的agent资料了,通过对agent资料的分析,就可以确定蜘蛛的种类.性别等因素,我们在通过数据库或者文本来记录就可以进行统计了. 数据库结构: 以下为引用的内容: # # 表的结构 `naps_stats_bot` # CREATE TABLE `na

  • php 判断访客是否为搜索引擎蜘蛛的函数代码

    复制代码 代码如下: /** * 判断是否为搜索引擎蜘蛛 * * @author Eddy * @return bool */ function isCrawler() { $agent= strtolower($_SERVER['HTTP_USER_AGENT']); if (!empty($agent)) { $spiderSite= array( "TencentTraveler", "Baiduspider+", "BaiduGame",

  • asp实现禁止搜索引擎蜘蛛访问的代码

    这段代码可以控制常用的搜索引擎无法访问asp页面,需要在每个asp页面包含这段代码. <% function isspider() dim i,agent,searray agent="agent:"&LCase(request.servervariables("http_user_agent")) searray=array("googlebot","baiduspider","sogouspider

  • Asp.Net Core对接钉钉群机器人的完整步骤记录

    前言 钉钉作为企业办公越来越常用的软件,对于企业内部自研系统提供接口支持,以此来打通多平台下的数据,本次先使用最简单的钉钉群机器人完成多种形式的消息推送,参考钉钉开发文档中自定义机器人环节,此次尝试所花的时间不多,但有几个地方是需要注意的. 一.钉钉群中建立机器人获取WebHook地址 首先得有一个钉钉群,如果没有得自行创建一个了,通过群内右上角菜单中找到群机器人然后添加一个自定义机器人 并设置消息推送开启(默认是开启),复制下一行的webhook地址,该地址将作为后面消息推送的地址 完成即可,

  • Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为

    摘要 做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况.下面我们针对nginx服务器进行分析,日志文件所在目录:/usr/local/nginx/logs/access.log,access.log这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大(超过50MB)建议别用这些命令分析,因为这些命令很消耗CPU,或者更新下来放到分析机上执行,以免影响网站的速度. Linux shell命令 1. 百度蜘蛛爬行

  • PHP判断搜索引擎蜘蛛并自动记忆到文件的代码

    复制代码 代码如下: function write_naps_bot(){ $useragent=get_naps_bot(); // echoExit($useragent); if ($useragent=="false") return FALSE ; date_default_timezone_set("Asia/Shanghai"); $date=date("Y-m-d H:i:s"); $ip=$_SERVER[REMOTE_ADDR

随机推荐