使用PHP实现蜘蛛访问日志统计
$useragent = addslashes(strtolower($_SERVER['HTTP_USER_AGENT']));
if (strpos($useragent, 'googlebot')!== false){$bot = 'Google';}
elseif (strpos($useragent,'mediapartners-google') !== false){$bot = 'Google Adsense';}
elseif (strpos($useragent,'baiduspider') !== false){$bot = 'Baidu';}
elseif (strpos($useragent,'sogou spider') !== false){$bot = 'Sogou';}
elseif (strpos($useragent,'sogou web') !== false){$bot = 'Sogou web';}
elseif (strpos($useragent,'sosospider') !== false){$bot = 'SOSO';}
elseif (strpos($useragent,'360spider') !== false){$bot = '360Spider';}
elseif (strpos($useragent,'yahoo') !== false){$bot = 'Yahoo';}
elseif (strpos($useragent,'msn') !== false){$bot = 'MSN';}
elseif (strpos($useragent,'msnbot') !== false){$bot = 'msnbot';}
elseif (strpos($useragent,'sohu') !== false){$bot = 'Sohu';}
elseif (strpos($useragent,'yodaoBot') !== false){$bot = 'Yodao';}
elseif (strpos($useragent,'twiceler') !== false){$bot = 'Twiceler';}
elseif (strpos($useragent,'ia_archiver') !== false){$bot = 'Alexa_';}
elseif (strpos($useragent,'iaarchiver') !== false){$bot = 'Alexa';}
elseif (strpos($useragent,'slurp') !== false){$bot = '雅虎';}
elseif (strpos($useragent,'bot') !== false){$bot = '其它蜘蛛';}
if(isset($bot)){
$fp = @fopen('bot.txt','a');
fwrite($fp,date('Y-m-d H:i:s')."\t".$_SERVER["REMOTE_ADDR"]."\t".$bot."\t".'http://'.$_SERVER['SERVER_NAME'].$_SERVER["REQUEST_URI"]."\r\n");
fclose($fp);
}
相关推荐
-
PHP判断来访是搜索引擎蜘蛛还是普通用户的代码小结
1.推荐的一种方法:php判断搜索引擎蜘蛛爬虫还是人为访问代码,摘自Discuz x3.2 <?php function checkrobot($useragent=''){ static $kw_spiders = array('bot', 'crawl', 'spider' ,'slurp', 'sohu-search', 'lycos', 'robozilla'); static $kw_browsers = array('msie', 'netscape', 'opera', 'konq
-
用php实现让页面只能被百度gogole蜘蛛访问的方法
普通用户与搜索引擎蜘蛛爬行的区别在于发送的user agent,看网站日志文件能发现百度蜘蛛名字包含Baiduspider, 而google的则是Googlebot, 这样我们可以通过判断发送的user agent来决定要不要取消普通用户的访问,编写函数如下: 复制代码 代码如下: function isAllowAccess($directForbidden = FALSE) { $allowed = array('/baiduspider/i', '/googlebot/i'); $user
-
PHP屏蔽蜘蛛访问代码及常用搜索引擎的HTTP_USER_AGENT
PHP屏蔽蜘蛛访问代码代码: 常用搜索引擎名与 HTTP_USER_AGENT对应值 百度baiduspider 谷歌googlebot 搜狗sogou 腾讯SOSOsosospider 雅虎slurp 有道youdaobot Bingbingbot MSNmsnbot Alexais_archiver function is_crawler() { $userAgent = strtolower($_SERVER['HTTP_USER_AGENT']); $spiders = array( '
-
PHP判断搜索引擎蜘蛛并自动记忆到文件的代码
复制代码 代码如下: function write_naps_bot(){ $useragent=get_naps_bot(); // echoExit($useragent); if ($useragent=="false") return FALSE ; date_default_timezone_set("Asia/Shanghai"); $date=date("Y-m-d H:i:s"); $ip=$_SERVER[REMOTE_ADDR
-
利用php抓取蜘蛛爬虫痕迹的示例代码
前言 相信许多的站长.博主可能最关心的无非就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,如果用php代码分析web日志中蜘蛛爬虫痕迹,是比较好又比较直观方便操作的!下面是示例代码,有需要的朋友们下面来一起看看吧. 示例代码 <?php //获取蜘蛛爬虫名或防采集 function isSpider(){ $bots = array( 'Google' => 'googlebot', 'Baidu' => 'baidus
-
PHP写的获取各搜索蜘蛛爬行记录代码
那么下面分享一款用php写的获取各搜索蜘蛛爬行记录代码 支持搜索引擎如下 可以记录Baidu,Google,Bing,Yahoo,Soso,Sogou,Yodao爬行网站的记录! php代码如下 复制代码 代码如下: <?php function get_naps_bot() { $useragent = strtolower($_SERVER['HTTP_USER_AGENT']); if (strpos($useragent, 'googlebot') !== false){ return
-
根据user-agent判断蜘蛛代码黑帽跳转代码(js版与php版本)
黑帽seo手段中有一个大家都在用的技巧,在服务端判断 客户端浏览器的user-agent然后做进一步操作, 网上一直都有人在用 这个代码 先是一个js代码 判断网站访客来路 如果是搜索引擎来的 就跳转 如果是直接访问则不变化 这段代码是从网上找来的 已经很久了 感谢原作者 <script language="javascript"> var pattern = /google/gi; var pattern1= /yahoo/gi; var keyValue=escape(
-
php 判断访客是否为搜索引擎蜘蛛的函数代码
复制代码 代码如下: /** * 判断是否为搜索引擎蜘蛛 * * @author Eddy * @return bool */ function isCrawler() { $agent= strtolower($_SERVER['HTTP_USER_AGENT']); if (!empty($agent)) { $spiderSite= array( "TencentTraveler", "Baiduspider+", "BaiduGame",
-
发款php蜘蛛统计插件只要有mysql就可用
于是昨天便认真的做了一下,功能多一点,可以对各种搜索引擎统计分析.可以在多个时间段进行查看.其实代码很简单,为了更简洁些,代码压缩到6k.分为6个文件 1.安装程序 spilder_install.php 复制代码 代码如下: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd&quo
-
使用PHP实现蜘蛛访问日志统计
复制代码 代码如下: $useragent = addslashes(strtolower($_SERVER['HTTP_USER_AGENT'])); if (strpos($useragent, 'googlebot')!== false){$bot = 'Google';} elseif (strpos($useragent,'mediapartners-google') !== false){$bot = 'Google Adsense';} elseif (strpos($userag
-
一文教会你使用Nginx访问日志统计PV与UV
目录 前言 一.方案设计 二.上报访问事件 三.Nginx配置日志格式 四.日志切割 五.Nodejs脚本分析日志,统计PV.UV 六.展望 前言 一个网站当用户量增大时候,不可避免有统计pv和uv的需求. UV(Unique Visitor):独立访客,以cookie为依据区分不同访客,UV计算一天之内(00:00-24:00),访问网站的访客数量. PV(Page View):页面访问量,同一个用户对页面多次访问累计. 本文介绍一种通过分析nginx日志统计pv.uv的方法. 一.方案设计
-
python写的一个squid访问日志分析的小程序
这两周组里面几位想学习python,于是我们就创建了一个这样的环境和氛围来给大家学习. 昨天在群里,贴了一个需求,就是统计squid访问日志中ip 访问数和url的访问数并排序,不少同学都大体实现了相应的功能,我把我简单实现的贴出来,欢迎拍砖: 日志格式如下: 复制代码 代码如下: %ts.%03tu %6tr %{X-Forwarded-For}>h %Ss/%03Hs %<st %rm %ru %un %Sh/%<A %mt "%{Referer}>h"
-
PHP记录搜索引擎蜘蛛访问网站足迹的方法
本文实例讲述了PHP记录搜索引擎蜘蛛访问网站足迹的方法.分享给大家供大家参考.具体分析如下: 搜索引擎的蜘蛛访问网站是通过远程抓取页面来进行的,我们不能使用JS代码来取得蜘蛛的Agent信息,但是我们可以通过image标签,这样我们就可以得到蜘蛛的agent资料了,通过对agent资料的分析,就可以确定蜘蛛的种类.性别等因素,我们在通过数据库或者文本来记录就可以进行统计了. 数据库结构: 以下为引用的内容: # # 表的结构 `naps_stats_bot` # CREATE TABLE `na
-
采用ngxtop实现nginx实时访问数据统计
对于nginx的实时访问数据统计可采用ngxtop实现监控web server的访问情况 .ngxtop 允许你对 NGINX 的访问日志 (access log) 进行实时解析, 并输出类似 top 的有用信息. ngxtop 是 python 脚本安装包,需要python支持. 对于python的包和库文件我们一般喜欢pip管理,没有安装的可以: wget https://raw.github.com/pypa/pip/master/contrib/get-pip.py python get
-
Nginx自定义访问日志的配置方式
前言 Nginx日志主要分为两种:访问日志和错误日志.日志开关在Nginx配置文件(/etc/nginx/nginx.conf)中设置,两种日志都可以选择性关闭,默认都是打开的. 访问日志主要记录客户端访问Nginx的每一个请求,格式可以自定义.通过访问日志,你可以得到用户地域来源.跳转来源.使用终端.某个URL访问量等相关信息. 日志的重要性不言而喻,一般来说我们开发过程中会为每个项目定义自己的日志格式以及存储路径. 就我们普通的JAVAWEB项目来说,重要的日志一般输出并存放在Tomcat的
-
详解如何使用Spark和Scala分析Apache访问日志
安装 首先需要安装好Java和Scala,然后下载Spark安装,确保PATH 和JAVA_HOME 已经设置,然后需要使用Scala的SBT构建Spark如下: $ sbt/sbt assembly 构建时间比较长.构建完成后,通过运行下面命令确证安装成功: $ ./bin/spark-shell scala> val textFile = sc.textFile("README.md") // 创建一个指向 README.md 引用 scala> textFile.co
-
Spring Boot2集成AOPLog来记录接口访问日志
前言 日志是一个Web项目中必不可少的部分,借助它我们可以做许多事情,比如问题排查.访问统计.监控告警等.一般通过引入slf4j的一些实现框架来做日志功能,如log4j,logback,log4j2,其性能也是依次增强.在springboot中,默认使用的框架是logback. 我们经常需要在方法开头或结尾加日志记录传入参数或返回结果,以此来复现当时的请求情况.但是手动添加日志,不仅繁琐重复,也影响代码的美观简洁.本文引入一个基于AOP实现的日志框架,并通过spring-boot-starter
-
springboot利用AOP完成日志统计的详细步骤
目录 1.创建日志表 2.创建实体类 3.创建枚举类 4.创建自定义注解 5.获取ip的util 6.线程池util 7.HttpServletRequest实现类 8.添加过滤器 9.添加AOP核心类 10.接口测试 步骤写的很详细,可以直接复制拿来用的,其中用到了过滤器.自定义注解以及AOP切面,来完成日志记录统计,感兴趣的收藏起来,以后遇到了可以直接用. 可能步骤会比较多,但是整体跟着思路下来,应该没什么大问题的. 项目用到了过滤器,可能有的人会不理解,之所以用过滤器是因为想要在日志记录p
随机推荐
- php实现的验证码文件类实例
- 详解js中class的多种函数封装方法
- Highcharts学习之坐标轴
- Oracle 下的开发日积月累
- asp.net 实现动态显示当前时间(不用javascript不考虑开销)
- 用php制作简单分页(从数据库读取记录)的方法详解
- Android 安全加密:Https编程详解
- JavaScript Prototype对象
- JavaScript实现LI列表数据绑定的方法
- js实现仿百度瀑布流的方法
- [注册表]注册DLL控件 让IE浏览器复活
- 神秘的个人站长的力量
- 自定义的Troop<T>泛型类( c++, java和c#)的实现代码
- C#中math类的全部运算方法(总结)
- Apache Commons Math3学习之数值积分实例代码
- C语言中结构体偏移及结构体成员变量访问方式的问题讨论
- 你应该知道的PHP+MySQL分页那点事
- python函数式编程学习之yield表达式形式详解
- Python安装图文教程 Pycharm安装教程
- python matlibplot绘制多条曲线图