shell版Nginx日志蜘蛛爬取查看脚本

2025-04-06 22:40:38

用之前改一下nginx日志的路径即可
如果更多的蜘蛛自己在代码蜘蛛UA数组里加即可

#!/bin/bash

m="$(date +%m)"
case $m in
  "01") m='Jan';;
  "02") m='Feb';;
  "03") m='Mar';;
  "04") m='Apr';;
  "05") m='May';;
  "06") m='June';;
  "07") m='July';;
  "08") m='Aug';;
  "09") m='Sept';;
  "10") m='Oct';;
  "11") m='Nov';;
  "12") m='Dec';;
esac
d="$(date +%d)"

spider=(
  Googlebot
  Baiduspider
  Sogou
  YisouSpider
  360Spider
)
for i in ${spider[*]}; do
  echo -e "$i \t" `cat 此处修改为nginx访问log |grep $d/$m|grep $i|wc -l`
done

以上所述就是本文的全部内容了，希望能对大家熟悉shell脚本有所帮助。

Crontab+Shell做Nginx日志切割脚本实例代码

平日里,我们需要把 Nginx 的错误日志输出到文件里,但是时间一长,文件就特别大,之前我服务器上日志就一周没管它,今天一看日志文件都32个G了,大的吓人.于是就写了个日志切割的脚本. 原理其实日志切割脚本的原理很简单先将原来的日志文件移动到指定文件夹中向 Nginx 发送 USR1 信号,让 Nginx 重新加载配置文件 [如果不发送信号的话,nginx 还是会将日志写到你移动的文件里去 #!/bin/bash LOGS_PATH=/home/wwwlogs DATE=$(date +%
使用shell脚本对Nginx日志进行切分的示例代码

本文介绍了使用shell脚本对Nginx日志进行切分的示例代码,分享给大家,具体如下: 1.日志格式默认的日志格式: main log_format main '$remote_addr - $remote_user [$time_local] "$request" ' $status $body_bytes_sent "$http_referer" ' '"$http_user_agent" "$http_x_forwarded_f
nginx日志切割shell脚本

一.脚本思路第一步就是重命名日志文件,不用担心重命名后nginx找不到日志文件而丢失日志.在你未重新打开原名字的日志文件前,nginx还是会向你重命名的文件写日志,linux是靠文件描述符而不是文件名定位文件. 第二步向nginx主进程发送USR1信号. nginx主进程接到信号后会从配置文件中读取日志文件名称,重新打开日志文件(以配置文件中的日志名称命名),并以工作进程的用户作为日志文件的所有者. 重新打开日志文件后,nginx主进程会关闭重名的日志文件并通知工作进程使用新打开的日志文件.
shell脚本分析 nginx日志访问次数最多及最耗时的页面(慢查询）

当服务器压力比较大,跑起来很费力时候.我们经常做站点页面优化,会去查找那些页面访问次数比较多,而且比较费时. 找到那些访问次数高,并且比较耗时的地址,就行相关优化,会取得立竿见影的效果的. 下面是我在做优化时候,经常用到的一段shell 脚本. 这个也可以算是,统计web页面的slowpage 慢访问页面,象mysql slowquery . 以下是我的:nginx 配制复制代码代码如下: log_format main '$remote_addr - $remote_user [$ti
shell版Nginx日志蜘蛛爬取查看脚本

shell版Nginx日志蜘蛛爬取查看脚本用之前改一下nginx日志的路径即可如果更多的蜘蛛自己在代码蜘蛛UA数组里加即可 #!/bin/bash m="$(date +%m)" case $m in "01") m='Jan';; "02") m='Feb';; "03") m='Mar';; "04") m='Apr';; "05") m='May';; "06&
Linux系统下nginx日志每天定时切割的脚本写法

使用Linux系统自带的命令logrotate对Nginx日志进行切割. Nginx安装目录:/usr/local/nginx/ Nginx日志目录:/usr/local/nginx/logs/./usr/local/nginx/logs/nginx_logs/ 1.添加nginx日志切割脚本 cd /etc/logrotate.d #进入目录 vi /etc/logrotate.d/nginx #编辑脚本 /usr/local/nginx/logs/*.log /usr/local/nginx
Python+Selenium实现短视频热点爬取

目录涉及知识点目标分析 1. 分析热榜目录 2.分析视频播放页面 3. 分析弹出框核心代码 1. 遍历热点目录 2. 获取真实短视频url 3. 下载视频 4. 关闭弹出的登录窗口 5. 保存日志示例截图总结随着短视频的大火,不仅可以给人们带来娱乐,还有热点新闻时事以及各种知识,刷短视频也逐渐成为了日常生活的一部分.本文以一个简单的小例子,简述如何通过Pyhton依托Selenium来爬取短视频,仅供学习分享使用,如有不足之处,还请指正. 涉及知识点 1.selenium,作为浏览器
nginx日志格式分析以及修改详解

目录一. 打开终端,登录服务器并输入服务器密码二. 切换到nginx目录三. 查看nginx日志四. 修改nginx日志格式五. 其他日志参数说明总结修改nginx日志打印格式一. 打开终端,登录服务器并输入服务器密码 //ssh 用户名@服务器ip ssh root@192.168.0.132 二. 切换到nginx目录 cd /var/log/nginx/ 三. 查看nginx日志 tail -f access.log 日志说明: //默认的nginx标准日志格式 192.1
python爬取网页版QQ空间,生成各类图表

github源码地址: https://github.com/kuishou68/python 各类图表的实现效果爬取的说说内容个性化说说内容词云图每年发表说说总数柱状图.每年点赞和评论折线图 7天好友动态柱状图.饼图使用方法按照你的谷歌浏览器下载指定版本的驱动 http://chromedriver.storage.googleapis.com/index.html 驱动跟两个python脚本放入同目录,我的版本是90.0.4430的,查看你自己的版本,下载后把我的chromedri
Rhit高效可视化Nginx日志查看工具

目录简介安装显示字段筛选排序键简介 Rhit 可以从标准文件夹中读取 Nginx 的日志文件(gzipped 的压缩文件也可以),并进行分析统计,在控制台中以可视化的表格形式展示,并且不会产生任何多余的临时文件或数据. 可以按照日期.响应值.请求来源等进行过滤匹配,并进行分析,Rhit 具有很高的效率,每秒可以处理百万行日志数据. 以下是在一月份的日志中查找状态码为 1xx.2xx 的结果: 项目地址是: https://github.com/Canop/rhit 安装直接下载使用
python scrapy拆解查看Spider类爬取优设网极细讲解

目录拆解 scrapy.Spider scrapy.Spider 属性值 scrapy.Spider 实例方法与类方法爬取优设网 Field 字段的两个参数: 拆解 scrapy.Spider 本次采集的目标站点为:优设网每次创建一个 spider 文件之后,都会默认生成如下代码: import scrapy class UiSpider(scrapy.Spider): name = 'ui' allowed_domains = ['www.uisdc.com'] start_urls =

shell版Nginx日志蜘蛛爬取查看脚本

相关推荐

随机推荐