利用shell命令统计日志的方法详解

前言

大家都知道,通过使用 shell 命令可以很方便地对日志进行统计和分析,当服务有异常的时候,需要去排查日志,那么掌握一种统计日志的技巧就是必不可少的了。

假设有一个包含下面内容的日志文件 access.log。我们以统计这个文件的日志为例。

date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=something | status=200 | time=9.703 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"
date=2017-09-23 00:00:00 | ip=100.109.222.3 | method=HEAD | url=/api/foo/healthcheck | status=200 | time=0.337 | bytes=10 | referrer="-" | user-agent="-" | cookie="-"
date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=anything | status=200 | time=8.829 | bytes=466 | referrer="-" | user-agent="GuzzleHttp/6.2.0 curl/7.19.7 PHP/7.0.15" | cookie="-"
date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=everything | status=200 | time=9.962 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"
date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=nothing | status=200 | time=11.822 | bytes=121 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"

不同的服务对应的日志可能不一样,本文使用示例日志的格式是:

date | ip | method | url | status | time | bytes | referrer | user-agent | cookie

注意:mac 系统和 linux 系统中的命令行为可能不同,以下命令请在 linux 系统中使用

排除特殊日志

统计日志时,我们可能不关心 HEAD 请求,或者只关心 GET 请求,这里首先需要筛选日志,可以使用 grep 命令。-v 的含义是排除匹配的文本行。

grep GET access.log # 只统计 GET 请求
grep -v HEAD access.log # 不统计 HEAD 请求
grep -v 'HEAD\|POST' access.log # 不统计 HEAD 和 POST 请求

查看接口耗时情况

我们可以将每行的 time 匹配出来,然后做一个排序。使用 awk 的 match 方法可以匹配正则:

awk '{ match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1]}' access.log

awk 命令使用方法如下:

awk '{pattern + action}' {filenames}

我们实际上只用到了 action:match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1] 这一段。

match 方法接收三个参数:需要匹配的文本、正则表达式、结果数组。$0 代表 awk 命令处理的每一行,结果数组是可选的,因为我们要拿到匹配结果所以这里传入了一个 result 数组,用来存储匹配后的结果。

注意这里的正则我没有使用 \d 来表示数字,因为 awk 指令默认使用 “EREs",不支持 \d 的表示,具体请看 linux shell 正则表达式(BREs,EREs,PREs)差异比较。

result 数组实际上和 javascript 里的结果数组很像了,所以我们打印出第二个元素,即匹配到的内容。执行完这行命令后结果如下:

9.703
0.337
8.829
9.962
11.822

当然实际上一天的日志可能是成千上万条,我们需要对日志进行排序,且只展示前 3 条。这里使用到 sort 命令。

sort 命令默认从小到大排序,且当作字符串排序。所以默认情况下使用 sort 命令之后 "11" 会排在 "8" 前面。那么需要使用 -n 指定按数字排序,-r 来按从大到小排序,然后我们查看前 3 条:

awk '{ match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1]}' access.log | sort -rn | head -3

结果:

11.822
9.962
9.703

查看耗时最高的接口

当然我们一般不会只查看接口耗时情况,还需要把具体日志也打印出来,上面的命令就不能满足要求了。

awk 的打印默认是按空格分隔的,意思是 2017-09-23 GET 这一行如果使用 awk '{print $1}' 会打印出 "2017-09-23",类似地,$2 会打印出 GET。

根据日志特征,我们可以使用 | 来作为分隔符,这样就能打印出各个我们感兴趣的值了。因为我们想找出耗时最高的接口,那么我们把 time、date 和 url 单独找出来。

awk 的 -F 参数用来自定义分隔符。然后我们可以数一下三个部分按 | 分隔后分别是第几个:time 是第 6 个、date 是第 1 个、url 是第 4 个。

awk -F '|' '{print $6 $1 $4}' access.log

这样打出来结果为:

 time=9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something
 time=0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck
 time=8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything
 time=9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything
 time=11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing

因为我们想按 time 来排序,而 sort 可以按列来排序,而列是按空格分隔的,我们目前第一列是 time=xxx,是不能排序的,所以这里要想办法把 time= 给去掉,因为我们很鸡贼地把耗时放在了第一列,那么其实再通过 time= 进行分隔一下就行了。

awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}'

结果:

9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something
0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck
8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything
9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything
11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing

使用 sort 的 -k 参数可以指定要排序的列,这里是第 1 列;再结合上面的排序,就能把耗时最高的日志打印出来了:

awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}' | sort -k1nr | head -3

结果:

11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing
9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything
9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something

统计请求次数最多的接口

如果需要统计哪些接口每天请求量是最多的,只需要新引入 uniq 命令。

我们已经可以通过 grep -v HEAD access.log | awk -F '|' '{print $4}' 来筛选出所有的 url,uniq 命令可以删除 相邻 的相同的行,而 -c 可以输出每行出现的次数。

所以我们先把 url 排序以让相同的 url 放在一起,然后使用 uniq -c 来统计出现的次数:

grep -v HEAD access.log | awk -F '|' '{print $4}' | sort | uniq -c

因为示例日志数量太少,我们假设日志里有多条,那么结果应该类似下面:

1 url=/api/foo/bar?params=anything
19 url=/api/foo/bar?params=everything
4 url=/api/foo/bar?params=nothing
5 url=/api/foo/bar?params=something

接下来再 sort 即可:

grep -v HEAD access.log | awk -F '|' '{print $4}' | sort | uniq -c | sort -k1nr | head -10

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对我们的支持。

(0)

相关推荐

  • 使用shell脚本分析网站日志统计PV、404、500等数据

    下面的脚本能统计出网站的总访问量,以及404,500出现的次数.统计出来后,我们可以结合监控宝来进行记录,进而可以看出网站访问量是否异常,是否存在攻击,一目了然.还可以根据查看500出现的次数,进而判断网站程序是否出现异常. 复制代码 代码如下: #!/bin/bash#purpose:count nginx or apache or other webserver status code using jiankongbao#how to:run the script every 5 minut

  • shell脚本实现的网站日志分析统计(可以统计9种数据)

    写了个shell脚本,可以用来统计每天的访问日志,并发送到电子邮箱,方便每天了解网站情况.脚本统计了:1.总访问量2.总带宽3.独立访客量4.访问IP统计5.访问url统计6.来源统计7.404统计8.搜索引擎访问统计(谷歌,百度)9.搜索引擎来源统计(谷歌,百度) 复制代码 代码如下: #!/bin/bashlog_path=/home/www.jb51.net/log/access.log.1domain="jb51.net"email="log@jb51.net&quo

  • 利用shell命令统计日志的方法详解

    前言 大家都知道,通过使用 shell 命令可以很方便地对日志进行统计和分析,当服务有异常的时候,需要去排查日志,那么掌握一种统计日志的技巧就是必不可少的了. 假设有一个包含下面内容的日志文件 access.log.我们以统计这个文件的日志为例. date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=something | status=200 | time=9.703 | bytes=

  • Python之使用adb shell命令启动应用的方法详解

    一直有一个心愿希望可以用Python做安卓自动化功能测试,在一步步摸索中,之前是用monkeyrunner,但是发现对于控件ID的使用非常具有局限性,尤其是ID的内容不便于区分 具有重复性时,后面又发现Uiautomator可以对resorceId.text.packageName等元素进行定位,也找到了xiaochong这位大神关于uiautomator的封装包,链接如下: https://github.com/xiaocong/uiautomator 做为一个小白,这一切都需要摸索,在克服了

  • 利用OpenCV实现YOLO对象检测方法详解

    目录 前言 什么是YOLO物体检测器? 项目结构 检测图像 检测视频 前言 本文将教你如何使用YOLOV3对象检测器.OpenCV和Python实现对图像和视频流的检测.用到的文件有yolov3.weights.yolov3.cfg.coco.names,这三个文件的github链接如下: GitHub - pjreddie/darknet: Convolutional Neural Networks https://pjreddie.com/media/files/yolov3.weights

  • DQL命令查询数据实现方法详解

    目录 一.SELECT语法-排序 二.SELECT语法-分页查询 三.SELECT语法-分组查询 四.WHERE与HAVING对比 五.子查询 1.IN子查询 2.EXISTS子查询 六.多表连接查询 1.内连接 2.多表内连接 3.左外连接 4.右外连接 5.自连接 6.不同的SQL JOIN对比 一.SELECT语法-排序 SELECT [ALL | DISTINCT] { * | table.* | [ table.field1 [ as alias1] [, table.field2 [

  • springboot命令行启动的方法详解

    springboot命令行启动 创建的springboot项目想看看效果,不想打开idea等开发工具,使用直接使用命令行启动. maven的命令启动 需要将 jdk的bin目录和maven的bin目录添加到环境变量path中,若是没有,mvn就要用在maven的bin环境中的全路径 若是没有添加环境变量 mvn就要是E:\software\apache-maven-3.3.9\bin\mvn(安装路径\bin\mvn) java就要是C:\software\jdk\bin\java.exe(安装

  • Java8利用Stream实现列表去重的方法详解

    目录 一. Stream 的distinct()方法 1.1 对于 String 列表的去重 1.2 对于实体类列表的去重 二. 根据 List<Object> 中 Object 某个属性去重 2.1 新建一个列表出来 2.2 通过 filter() 方法 一. Stream 的distinct()方法 distinct()是Java 8 中 Stream 提供的方法,返回的是由该流中不同元素组成的流.distinct()使用 hashCode() 和 eqauls() 方法来获取不同的元素.

  • 利用JavaScript获取用户IP属地方法详解

    目录 写在前面 尝试一:navigator.geolocation 尝试二:sohu 的接口 尝试三:百度地图的接口 写在后面 写在前面 想要像一些平台那样显示用户的位置信息,例如某省市那样.那么这是如何做到的, 据说这个位置信息的准确性在通信网络运营商那里?先不管,先实践尝试下能不能获取. 尝试一:navigator.geolocation 尝试了使用 navigator.geolocation,但未能成功拿到信息. getGeolocation(){ if ('geolocation' in

  • Java利用位运算实现加减乘除的方法详解

    目录 前言 一.常见位运算 1. &运算 2. |运算 3. ^运算 4. ~运算 二.位运算实现加法 三.位运算实现减法 四.位运算实现乘法 五.位运算实现除法 前言 我们经常使用的加减乘除,我们所看到的只是表面的效果,那么加减乘除在底层究竟是怎么实现的?今天就让我们一探究竟.今天用位运算实现的加减乘除不使用任何的加减乘除符号. 一.常见位运算 1. &运算 &运算二进制每一位全1为1,否则为0 public static void main(String[] args) { i

  • Java利用StampedLock实现读写锁的方法详解

    目录 概述 StampedLock介绍 演示例子 性能对比 总结 概述 想到读写锁,大家第一时间想到的可能是ReentrantReadWriteLock.实际上,在jdk8以后,java提供了一个性能更优越的读写锁并发类StampedLock,该类的设计初衷是作为一个内部工具类,用于辅助开发其它线程安全组件,用得好,该类可以提升系统性能,用不好,容易产生死锁和其它莫名其妙的问题.本文主要和大家一起学习下StampedLock的功能和使用. StampedLock介绍 StampedLock的状态

  • Mysql误操作后利用binlog2sql快速回滚的方法详解

    前言 在日常工作或者学习中,操作数据库时候难免会因为"大意"而误操作,需要快速恢复的话通过备份来恢复是不太可能的,下面这篇文章主要给大家介绍关于Mysql误操作后利用binlog2sql快速回滚的方法,话不多说,来一起看看详细的介绍: 一.总体解释: DML(data manipulation language): 它们是SELECT.UPDATE.INSERT.DELETE,就象它的名字一样,这4条命令是用来对数据库里的数据进行操作的语言 DDL(data definition la

随机推荐