使用CDN之后APACHE日志记录中IP地址不正确的解决方案

最近在搞APACHE日志分析,装好了awstats之后,这两天进行了观察,

报表日期 月 1 月 2010
首次参观日期 2010年01月12日 11:04
最近参观日期 2010年01月13日 23:59
    参观者 参观人次 网页数 文件数 字节
浏览器流量 * 77  226  (2.93 参观人次/参观者) 508979 (2252.11 网页数/参观) 509492 (2254.38 文件数/参观) 13.67 G字节 (63430.28 K字节/参观)
非浏览器流量 *  117312 122716 736.24 M字节

这边的结果很让人费解,通过google统计网站的独立IP访问量有2W做,这里显示的数字相差甚远。  后面的网页数和文件数又都与实际相吻合。  经过查找原因发现 apache日志里记录的IP地址不正确,大部分都是cdn的节点地址。 产生的原因很显然是因为CDN造成的,之前在网站后台程序里读取用户IP地址也出现了类似问题。 可以使用print_r($_SERVER)  (PHP语言),查找到真实的用户IP地址,本站为 $_SERVER[‘HTTP_CDN-SRC-IP'].  这个是CDN携带的真实的客户IP地址(这里不计较用户是否使用代理)。 但在APACHE的日志记录里如何使用这个值呢?  本人在GOOGLE和百度里查找了许久都没有找到相应的资料或者说解决方案,只好自己思考寻求了。
仔细看了下APACHE里日志记录的相关配置,针对LogFormat:
LogFormat "%h %l %u %t /"%r/" %>s %b /"%{Referer}i/" /"%{User-Agent}i/"" combined
我思索里面的%{Referer}和%{User-Agent} 是如何取得的, 这两个是在程序里也是经常会用到的东西,客户端发送请求的时候 这两个信息都是作为头详细发送到服务器的。后来查看了下访问时的所有头信息,如下:

代码如下:

Array
(
    [Cdn-Src-Ip] => 222.44.46.58
    [Accept] => image/gif, image/jpeg, image/pjpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*
    [Accept-Language] => zh-cn
    [User-Agent] => Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; CIBA; .NET CLR 2.0.50727)
    [Host] => www.875.cn
    [Cookie] => __utma=217127135.1188793388.1263188369.1263364666.1263368206.5; __utmz=217127135.1263368206.5.2.utmcsr=211.167.92.250|utmccn=(referral)|utmcmd=referral|utmcct=/cgi-bin/awstats/awstats.pl; viewedShopsID=621; viewedShopsPP=%u6B27%u5C1A%u574A
    [Accept-Encoding] => gzip
    [Via] => 1.1 hnay40:80 (Cdn Cache Server V2.0)
    [Connection] => keep-alive
)

当然rerfer的时候也会有rerfer信息出现在头部信息里,上面也有Cookie、Host、User-Agent等信息,这些信息都是可以在apache配置文件里可以使用的变量,当然这里Cdn-Src-Ip正是我想要的客户的真实IP地址。 于是推测${Cdn-Src-Ip}在日志记录格式里应该也是可以使用的。 后面的i应该是指忽略大小写的意思。于是得出一个解决方案:

添加一个新的logformat信息

代码如下:

LogFormat "%{Cdn-Src-Ip}i %l %u %t /"%r/" %>s %b /"%{Referer}i/" /"%{User-Agent}i/"" combinedcdn

在需要记录的网站配置里增加:

代码如下:

CustomLog "|/usr/local/sbin/cronolog /usr/local/apache/logs/www.875.cn-access_log.%Y%m%d" combinedcdn env=!IMAGES

重启apache服务,然后访问网站,查看日志记录发现现在可以正常记录客户IP地址了。

(0)

相关推荐

  • 利用Python中的pandas库对cdn日志进行分析详解

    前言 最近工作工作中遇到一个需求,是要根据CDN日志过滤一些数据,例如流量.状态码统计,TOP IP.URL.UA.Referer等.以前都是用 bash shell 实现的,但是当日志量较大,日志文件数G.行数达数千万亿级时,通过 shell 处理有些力不从心,处理时间过长.于是研究了下Python pandas这个数据处理库的使用.一千万行日志,处理完成在40s左右. 代码 #!/usr/bin/python # -*- coding: utf-8 -*- # sudo pip instal

  • Python科学计算之Pandas详解

    起步 Pandas最初被作为金融数据分析工具而开发出来,因此 pandas 为时间序列分析提供了很好的支持. Pandas 的名称来自于面板数据(panel data)和python数据分析 (data analysis) .panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型. 在我看来,对于 Numpy 以及 Matplotlib ,Pandas可以帮助创建一个非常牢固的用于数据挖掘与分析的基础.而Scipy当然是另一个主要的也十分出色的科学计

  • 在Python中利用Pandas库处理大数据的简单介绍

    在数据分析领域,最热门的莫过于Python和R语言,此前有一篇文章<别老扯什么Hadoop了,你的数据根本不够大>指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择.这次拿到近亿条日志数据,千万级数据已经是关系型数据库的查询分析瓶颈,之前使用过Hadoop对大量文本进行分类,这次决定采用Python来处理数据: 硬件环境         CPU:3.5 GHz Intel Core i7         内存:32 GB HDDR 3 1600 MHz         硬

  • 使用CDN之后APACHE日志记录中IP地址不正确的解决方案

    最近在搞APACHE日志分析,装好了awstats之后,这两天进行了观察, 报表日期 月 1 月 2010 首次参观日期 2010年01月12日 11:04 最近参观日期 2010年01月13日 23:59     参观者 参观人次 网页数 文件数 字节 浏览器流量 * 77  226  (2.93 参观人次/参观者) 508979 (2252.11 网页数/参观) 509492 (2254.38 文件数/参观) 13.67 G字节 (63430.28 K字节/参观) 非浏览器流量 *  117

  • 局域网中IP地址的设置

    TCP/IP协议,即Transmission Control Protocol/ Internet Protocol传输控制协议/因特网协议,是目前最完美并广为接受的通信协议之一,它不仅应用于在广域网中实现不同类型的网络以及不同类型的芯片和操作系统的主机之间的相互通信,而且也广泛应用于各种类型的以太网中,Windows 95/98的对等网也好,Windows NT.Unix.Linux.NetWare的也罢,目前都广泛地支持该协议.如何为所有的设备各自分配一个IP地址既是一件技术含量很高的工作,

  • Python中IP地址处理IPy模块的方法

    安装 先下载源码,地址:ps://pypi.python.org/pypi/IPy/">https://pypi.python.org/pypi/IPy/ ,然后解压后使用命令python setup.py install安装. 使用 1.显示IP类型 >>> IP('192.168.1.1').version() 4 >>> IP('::1').version() 6 类似如上所示,通过version方法可以的判断输入的IP是IPv4还是IPv6 .

  • java正则表达式判断 ip 地址是否正确解析

    这篇文章主要介绍了java正则表达式判断 ip 地址是否正确解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 代码如下 public class ClassWork05 { public static void main(String[] args) { System.out.println(IsIp.isIp("10.10.1.1")); } } class IsIp{ public static boolean isIp(Str

  • LNAMP架构中后端Apache获取用户真实IP地址的2种方法

    一.Nginx反向代理配置: 1.虚拟主机配置 复制代码 代码如下: location / {    try_files $uri @apache;} location @apache {internal;    proxy_pass http://127.0.0.1:8080;    include proxy.conf;} location ~ .*\.(php|php5)?$  {    proxy_pass http://127.0.0.1:8080;    include proxy.

  • PHP中IP地址与整型数字互相转换详解

    IP转换成整型存储是数据库优化一大趋势,不少人目前存储IP时还在使用字符串类型存储,字符串索引比整型索引消耗资源很多,特别是表中数据量大的时候,以及求查询某一个ip段的数据,今天说的ip是指ip4,ip6不在本文范围内. 系统函数ip2long与long2ip PHP中有内置函数ip2long可以将ip地址转换整型. 复制代码 代码如下: $ip = '210.110.11.49'; echo ip2long($ip); 输出: 复制代码 代码如下: -764540111 输出的整型有负号是因为

  • JS中IP地址与整数相互转换的实现代码

    主要用于在js判断用户输入的一个ip段是否合法,如:192.168.1.11-192.168.1.134 实现代码一: function ipToNumber(ip) { var num = 0; if(ip == "") { return num; } var aNum = ip.split("."); if(aNum.length != 4) { return num; } num += parseInt(aNum[0]) << 24; num +=

  • Shell脚本实现分析apache日志中ip所在的地区

    查询ip地址所用的组件 复制代码 代码如下: wget http://rfyiamcool.googlecode.com/files/nali-0.1.tar.gz  tar zxvf nali-0.1.tar.gz  cd nali-0.1  ./configure && make && make install 步骤和nginx是差不多的,只是取日志里面的ip地址的方法不一样~~~ 复制代码 代码如下: #!/bin/bash  #rfyiamcool  IPSUMFI

  • 详解在使用CDN加速时Nginx获取用户IP的配置方法

    关于CDN 内容分发网络(Content delivery network或Content distribution network,缩写:CDN)是指一种通过互联网互相连接的电脑网络系统,利用最靠近每位用户的服务器,更快.更可靠地将音乐.图片.视频.应用程序及其他文件发送给用户,来提供高性能.可扩展性及低成本的网络内容传递给用户. 内容分发网络的总承载量可以比单一骨干最大的带宽还要大.这使得内容分发网络可以承载的用户数量比起传统单一服务器多.也就是说,若把有100Gbps处理能力的服务器放在只

  • 运用Spring Aop+注解实现日志记录

    目录 1. 介绍 2. 实践 2.1 定义注解 2.2 切面类 2.3 编写测试方法 2.4 运行结果 3. 总结 4. 参考文章 1. 介绍 我们都知道Spring框架的两大特性分别是 IOC (控制反转)和 AOP (面向切面),这个是每一个Spring学习视频里面一开始都会提到的.在日常项目中,我们也会经常使用IOC控制反转,但是却感觉AOP很少会运用到.其实AOP大有用处,甚至可以让你偷偷懒. 举一个例子,假如现在要让你记录每一个请求的请求IP,请求的方法,请求路径,请求的参数,返回参数

随机推荐