使用Python编写提取日志中的中文的脚本的方法

2025-04-04 14:04:14

由于工作需要在一大堆日志里面提取相应的一些固定字符，如果单纯靠手工取提取，数据量大，劳心劳力，于是自然而然想到了用Python做一个对应的提取工具，代替手工提取的繁杂，涉及中文字符，正则表达式不好匹配，但不是不可以实现，这个以后优化时再说。

需求描述：

一个父目录中存在多个子文件夹，子文件夹下有多个txt形式化的Log日志，要求从所有地方Log日志中找出CardType=9, CardNo=0时的CardID的值，并将其统计存储到一个文本文件中，要求CardID不能够重复。

需求解析：

首先获取所有的Log日志的全路径，根据路径分别加载到将各个Log日志加载到内存中进行提取分析，并将结果存储到给定的文本文件中。

解决方案：

为了尽可能的简洁通用，这里使用配置文件作为输入变量的依据。不多说，上代码：

配置文件如下：

103文件夹下有两个文件：log1.txt和log2.txt, 内容类似如下：

Python代码实现如下：

# -*- coding: utf-8 -*-
#!/usr/bin/python
# filename: picktools.py
# codedtime:2015-3-25

import os
import configparser

# 遍历一个目录，输出所有文件名
def itemsbrowse(path):
  for home, dirs, files in os.walk(path):
    for filename in files:
      yield os.path.join(home, filename)

# 给的文件中查找对应的字符串所在行
def findchars(filename, chars):
  file = open(filename, 'r')
  for eachline in file:
    if eachline.find(chars) >= 0:
      yield eachline
  file.close()

# 添加到指定的文件
def addtofile(filename, mygenerator):
  file = open(filename, 'a')   # 追加方式打开
  for line in mygenerator:
    file.write(line)
  file.close()

# 过滤重复的字符行
def filter(filename):
  mylist = []
  file = open(filename, 'r')
  for eachline in file:
    mylist.append(eachline.strip())
  file.close()

  file2 = open(os.path.splitext(filename)[0] + '_filter.txt', 'w')
  for line in list(set(mylist)):
    print(line, file = file2)
    #file2.write(line)
  file2.close()

def excute():
  iniconf = configparser.ConfigParser()
  iniconf.read('config.ini')
  ifile = iniconf.get('setting', 'ifilepath')
  ofile = iniconf.get('setting', 'ofilepath')
  chars = iniconf.get('setting', 'searchstr')

  for fullname in itemsbrowse(ifile):
    mygenerator = findchars(fullname, chars)
    addtofile(ofile, mygenerator)

  filter(ofile)

if __name__ == '__main__':
  excute()

输出结果：输出两个文件result.txt 和result_filter.txt

心得体会：

1、利用Python去处理一些日常的小任务，可以很方便的完成，相比较C/C++来说，这方面生产力高了不少。

2、本文设计对中文字符的处理，所以使用正则表达式不太怎么方便，但不少不可以，后续版本中会添加对正则的支持！

3、由于初学中，所以代码写的不够精炼简洁，后续进行再优化！

python脚本实现统计日志文件中的ip访问次数代码分享

适用的日志格式: 106.45.185.214 - - [06/Aug/2014:07:38:59 +0800] "GET / HTTP/1.0" 200 10 "-" "-" 171.104.119.22 - - [06/Aug/2014:08:55:01 +0800] "GET / HTTP/1.0" 200 10 "-" "-" 27.31.238.242 - - [06/Aug/
python分析apache访问日志脚本分享

#!/usr/bin/env python # coding=utf-8 #------------------------------------------------------ # Name: Apache 日志分析脚本 # Purpose: 此脚本只用来分析Apache的访问日志 # Version: 2.0 # Author: LEO # Created: 2013-4-26 # Modified: 2013-5-4 # Copyright: (c) LEO 2013 #------
怎样使用Python脚本日志功能

假设要开发一个自动化脚本工具,工程结构如下,Common这个package是框架功能的实现,Scripts目录是我们编写的测试用例脚本(请忽略其他不相关的目录). 我们对日志功能的需求如下: 1 为了便于日志的查看,每个脚本对应一个日志文件,日志文件以脚本的名字命名 2 日志路径以及每个脚本保存的日志容量可以设置,比如设置为5MB,则超过后最老日志被自动覆盖 3 日志功能要使用方便,减少与框架业务功能的耦合现在来逐一分析上述需求. 1 要实现每个脚本一个日志文件,
python自动化工具日志查询分析脚本代码实现

受控节点slave.py 复制代码代码如下: import socketimport reclass Log(object): file_list=['access.log','C:\\access.log'] master_ip='192.168.0.103' def __init__(self): s=socket.socket(socket.AF_INET,socket.SOCK_STREAM) s.bind(('',3333))
python脚本实现分析dns日志并对受访域名排行

前段时间有个需求是要求查一段时间的dns上的域名访问次数排行(top100),没办法,只好慢慢的去解析dns日志呗,正好学习了python,拿来练练手. 1.原始数据分析: 首先看下原始数据文件,即dns日志内容,下面是抽取的几条有代表性的日志,2×8.2×1.2x.1×5 这种中间的x是相应的数字被我抹去了. 复制代码代码如下: 13-08-30 03:11:34,226 INFO : queries: – |1×3.2×8.2×0.2×0|config.dengluqi.net||conf
python分析nignx访问日志脚本分享

#!/usr/bin/env python # coding=utf-8 #------------------------------------------------------ # Name: nginx 日志分析脚本 # Purpose: 此脚本只用来分析nginx的访问日志 # Version: 1.0 # Author: LEO # Created: 2013-05-07 # Modified: 2013-05-07 # Copyright: (c) LEO 2013 #-----
Python脚本实现下载合并SAE日志

由于一些原因,需要SAE上站点的日志文件,从SAE上只能按天下载,下载下来手动处理比较蛋疼,尤其是数量很大的时候.还好SAE提供了API可以批量获得日志文件下载地址,刚刚写了python脚本自动下载和合并这些文件调用API获得下载地址文档位置在这里设置自己的应用和下载参数请求中需要设置的变量如下复制代码代码如下: api_url = 'http://dloadcenter.sae.sina.com.cn/interapi.php?' appname = 'xxxxx' from_da
Python实现过滤单个Android程序日志脚本分享

在Android软件开发中,增加日志的作用很重要,便于我们了解程序的执行情况和数据.Eclipse开发工具会提供了可视化的工具,但是还是感觉终端效率会高一些,于是自己写了一个python的脚本来通过包名来过滤某一程序的日志. 原理通过包名得到对应的进程ID(可能多个),然后使用adb logcat 过滤进程ID即可得到对应程序的日志. 源码复制代码代码如下: #!/usr/bin/env python #coding:utf-8 #This script is aimed to grep
使用Python编写提取日志中的中文的脚本的方法

由于工作需要在一大堆日志里面提取相应的一些固定字符,如果单纯靠手工取提取,数据量大,劳心劳力,于是自然而然想到了用Python做一个对应的提取工具,代替手工提取的繁杂,涉及中文字符,正则表达式不好匹配,但不是不可以实现,这个以后优化时再说. 需求描述: 一个父目录中存在多个子文件夹,子文件夹下有多个txt形式化的Log日志,要求从所有地方Log日志中找出CardType=9, CardNo=0时的CardID的值,并将其统计存储到一个文本文件中,要求CardID不能够重复. 需求解析: 首先获取
Python统计日志中每个IP出现次数的方法

本文实例讲述了Python统计日志中每个IP出现次数的方法.分享给大家供大家参考.具体如下: 这脚本可用于多种日志类型,本人测试MDaemon的all日志文件大小1.23G左右,分析用时2~3分钟代码很简单,很适合运维人员,有不足的地方请大家指出哦 #-*- coding:utf-8 -*- import re,time def mail_log(file_path): global count log=open(file_path,'r') C=r'\.'.join([r'\d{1,3}']
Python在Matplotlib图中显示中文字体的操作方法

1. 说明本篇主要针对在Ubuntu系统中,matplotlib显示不了中文的问题,尤其是在无法安装系统字体的情况下,解决Python绘图时中文显示的问题. 2. 在系统中安装字体 $ fc-list :lang=zh # 查看中文字体名称及其安装路径,相对于英文字体,中文字体文件一般较大. 如果无中文字体,可使用apt-get安装,具体方法如下: $ apt-cache search font|grep Chinese # 查看可安装的中文字体 $ sudo apt-get in
在python image 中安装中文字体的实现方法

如果一些应用需要到中文字体(如果pygraphviz,不安装中文字体,中文会显示乱码),就要在image 中安装中文字体. 默认 python image 是不包含中文字体的: mac-temp:relation_graph test$ docker run --rm -it python bash root@36d738e2084c:/# fc-list /usr/share/fonts/truetype/dejavu/DejaVuSerif-Bold.ttf: DejaVu Serif:st
Python实现提取语句中的人名

目录前言环境依赖代码验证一下总结前言本文提供将语句中的人名提取出来的工具方法,可以拿去直接使用. 环境依赖需要安装两个库,其实一个也可以,但是我这边准备了两个库做个比较. 安装命令如下: pip install LAC -i https://pypi.douban.com/simple pip install ltp -i https://pypi.douban.com/simple 代码不废话,上代码. #!/user/bin/env python # coding=utf-
Python使用matplotlib绘图无法显示中文问题的解决方法

本文实例讲述了Python使用matplotlib绘图无法显示中文问题的解决方法.分享给大家供大家参考,具体如下: 在python中,默认情况下是无法显示中文的,如下代码: import matplotlib.pyplot as plt # 定义文本框和箭头格式 decisionNode = dict(boxstyle = "sawtooth", fc = "0.8") leafNode = dict(boxstyle = "round4", f
Python编写运维进程文件目录操作实用脚本示例

目录 1. 执行外部程序或命令 2. 文件和目录操作(命名.删除.拷贝.移动等) 3. 创建和解包归档文件参考 Python在很大程度上可以对shell脚本进行替代.笔者一般单行命令用shell,复杂点的多行操作就直接用Python了.这篇文章就归纳一下Python的一些实用脚本操作. 1. 执行外部程序或命令我们有以下C语言程序cal.c(已编译为.out文件),该程序负责输入两个命令行参数并打印它们的和.该程序需要用Python去调用C语言程序并检查程序是否正常返回(正常返回会返回 0)
Python编程对列表中字典元素进行排序的方法详解

本文实例讲述了Python编程对列表中字典元素进行排序的方法.分享给大家供大家参考,具体如下: 内容目录: 1. 问题起源 2. 对列表中的字典元素排序 3. 对json进行比较(忽略列表中字典的顺序) 一.问题起源 json对象a,b a = '{"ROAD": [{"id": 123}, {"name": "no1"}]}' b = '{"ROAD": [{"name": "
Python找出list中最常出现元素的方法

本文实例讲述了Python找出list中最常出现元素的方法.分享给大家供大家参考,具体如下: 假设一个list中保存着各种元素,需要统计每个元素出现的个数,并打印出最常出现的前三个元素分别是什么.list如下: 复制代码代码如下: word_list =["is","you","are","I","am","OK","is","OK","
Python针对给定列表中元素进行翻转操作的方法分析

本文实例讲述了Python针对给定列表中元素进行翻转操作的方法.分享给大家供大家参考,具体如下: 题目给定一列表,翻转其中的元素,倒序输出做法很简单,这里给出来两种做法,第一种最简单使用的是针对列表的切片操作,下面是具体实现 #!usr/bin/env python #encoding:utf-8 ''''' __Author__:沂水寒城功能:翻转列表 ''' def inverse_list1(num_list): ''''' 翻转列表 ''' print num_list[::-1]

使用Python编写提取日志中的中文的脚本的方法

相关推荐

随机推荐