Python利用pangu模块实现文本格式化小工具

其实使用pangu做文本格式标准化的业务代码在之前就实现了,主要能够将中文文本文档中的文字、标点符号等进行标准化。

但是为了方便起来我们这里使用了Qt5将其做成了一个可以操作的页面应用,这样不熟悉python的朋友就可以不用写代码直接双击运行使用就OK了。

为了使文本格式的美化过程不影响主线程的使用,特地采用QThread子线程来专门的运行文本文档美化的业务过程,接下来还是采用pip的方式将所有需要的非标准模块安装一下。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pangu

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple PyQt5

将我们使用到的pyqt5应用制作模块以及业务模块pangu导入到我们的代码块中。

# It imports all the classes, attributes, and methods of the PyQt5.QtCore module into the global symbol table.
from PyQt5.QtCore import *

# It imports all the classes, attributes, and methods of the PyQt5.QtWidgets module into the global symbol table.
from PyQt5.QtWidgets import QApplication, QWidget, QHBoxLayout, QVBoxLayout, QTextBrowser, QLineEdit, QPushButton, \
    QFormLayout, QFileDialog

# It imports all the classes, attributes, and methods of the PyQt5.QtGui module into the global symbol table.
from PyQt5.QtGui import QIcon, QFont, QTextCursor

# It imports the pangu module.
import pangu

# It imports the sys module.
import sys

# It imports the os module.
import os

为了减少python模块在打包时资源占用过多,打的exe应用程序的占用空间过大的情况,这次我们只导入了能够使用到的相关python类,这个小细节大家注意一下。

下面创建一个名称为PanGuUI的python类来实现对整个应用页面的开发,将页面的布局以及组件相关的部分写到这个类中。并且给页面组件绑定好相应的槽函数从而实现页面的'点击'等功能。

# It creates a class called PanGuUI that inherits from QWidget.
class PanGuUI(QWidget):
    def __init__(self):
        """
        A constructor. It is called when an object is created from a class and it allows the class to initialize the
        attributes of a class.
        """
        super(PanGuUI, self).__init__()
        self.init_ui()

    def init_ui(self):
        """
        This function initializes the UI.
        """
        self.setWindowTitle('文本文档美化器 公众号:Python 集中营')
        self.setWindowIcon(QIcon('txt.ico'))

        self.brower = QTextBrowser()
        self.brower.setFont(QFont('宋体', 8))
        self.brower.setReadOnly(True)
        self.brower.setPlaceholderText('处理进程展示区域...')
        self.brower.ensureCursorVisible()

        self.txt_file_path = QLineEdit()
        self.txt_file_path.setPlaceholderText('源文本文档路径')
        self.txt_file_path.setReadOnly(True)

        self.txt_file_path_btn = QPushButton()
        self.txt_file_path_btn.setText('导入')
        self.txt_file_path_btn.clicked.connect(self.txt_file_path_btn_click)

        self.new_txt_file_path = QLineEdit()
        self.new_txt_file_path.setPlaceholderText('新文本文档路径')
        self.new_txt_file_path.setReadOnly(True)

        self.new_txt_file_path_btn = QPushButton()
        self.new_txt_file_path_btn.setText('路径')
        self.new_txt_file_path_btn.clicked.connect(self.new_txt_file_path_btn_click)

        self.start_btn = QPushButton()
        self.start_btn.setText('开始导入')
        self.start_btn.clicked.connect(self.start_btn_click)

        hbox = QHBoxLayout()
        hbox.addWidget(self.brower)

        fbox = QFormLayout()
        fbox.addRow(self.txt_file_path, self.txt_file_path_btn)
        fbox.addRow(self.new_txt_file_path, self.new_txt_file_path_btn)

        v_vbox = QVBoxLayout()
        v_vbox.addWidget(self.start_btn)

        vbox = QVBoxLayout()
        vbox.addLayout(fbox)
        vbox.addLayout(v_vbox)

        hbox.addLayout(vbox)

        self.thread_ = PanGuThread(self)
        self.thread_.message.connect(self.show_message)
        self.thread_.finished.connect(self.finshed)

        self.setLayout(hbox)

    def show_message(self, text):
        """
        It shows a message

        :param text: The text to be displayed
        """
        cursor = self.brower.textCursor()
        cursor.movePosition(QTextCursor.End)
        self.brower.append(text)
        self.brower.setTextCursor(cursor)
        self.brower.ensureCursorVisible()

    def txt_file_path_btn_click(self):
        """
        It opens a file dialog box and allows the user to select a file.
        """
        txt_file = QFileDialog.getOpenFileName(self, os.getcwd(), '打开文本文档',
                                               'Text File(*.txt)')
        self.txt_file_path.setText(txt_file[0])

    def new_txt_file_path_btn_click(self):
        """
        This function opens a file dialog box and allows the user to select a file to save the output to.
        """
        new_txt_file = QFileDialog.getOpenFileName(self, os.getcwd(), '打开文本文档',
                                                   'Text File(*.txt)')
        self.new_txt_file_path.setText(new_txt_file[0])

    def start_btn_click(self):
        """
        A function that is called when the start button is clicked.
        """
        self.thread_.start()
        self.start_btn.setEnabled(False)

    def finshed(self, finished):
        """
        :param finished: A boolean value that is True if the download is finished, False otherwise
        """
        if finished is True:
            self.start_btn.setEnabled(True)

创建名称为PanGuThread的子线程,将具体实现美化格式化文本字符串的业务代码块写入到子线程中。子线程继承的是QThread的PyQt5的线程类,通过创建子线程并且将子线程的信号信息传递到主线程中,在主线程的文本浏览器中进行展示达到实时跟踪执行结果的效果。

# This class is a subclass of QThread, and it's used to split the text into words
class PanGuThread(QThread):
    message = pyqtSignal(str)
    finished = pyqtSignal(bool)

    def __init__(self, parent=None):
        """
        A constructor that initializes the class.

        :param parent: The parent widget
        """
        super(PanGuThread, self).__init__(parent)
        self.working = True
        self.parent = parent

    def __del__(self):
        """
        A destructor. It is called when the object is destroyed.
        """
        self.working = True
        self.wait()

    def run(self) -> None:
        """
        > This function runs the program
        """
        try:

            txt_file_path = self.parent.txt_file_path.text().strip()
            self.message.emit('源文件路径信息读取正常!')
            new_txt_file_path = self.parent.new_txt_file_path.text().strip()
            self.message.emit('新文件路径信息读取正常!')
            list_ = []
            with open(txt_file_path, encoding='utf-8') as f:
                lines_ = f.readlines()
                self.message.emit('源文件内容读取完成!')
                n = 1
                for line_ in lines_:
                    text = pangu.spacing_text(line_)
                    self.message.emit('第{0}行文档内容格式化完成!'.format(n))
                    list_.append(text)
                    n = n + 1
                self.message.emit('源文件路径信息格式化完成!')

            self.message.emit('即将开始将格式化内容写入新文件!')
            with open(new_txt_file_path, 'a') as f:
                for line_ in list_:
                    f.write(line_ + '\n')
            self.message.emit('新文件内容写入完成!')
            self.finished.emit(True)

        except Exception as e:
            self.message.emit('文件内容读取或格式化发生异常!')

if __name__ == '__main__':
    app = QApplication(sys.argv)
    main = PanGuUI()
    main.show()
    sys.exit(app.exec_())

完成了开发开始测试一下效果如何,创建了两个文本文件data.txt、new_data.txt,点击'开始运行'之后会调起整个的业务子线程实现文本格式化,结果完美运行来看一下执行过程展示。

到此这篇关于Python利用pangu模块实现文本格式化小工具的文章就介绍到这了,更多相关Python pangu文本格式化内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • python中使用%与.format格式化文本方法解析

    初学python,看来零零碎碎的格式化文本的方法,总结一下python中格式化文本的方法.使用不当的地欢迎指出谢谢. 1.首先看使用%格式化文本 常见的占位符: 常见的占位符有: %d 整数 %f 浮点数 %s 字符串 %x 十六进制整数 使用方法: >>> 'Hello, %s' % 'world' 'Hello, world' >>> 'Hi, %s, you have $%d.' % ('Michael', 1000000) 'Hi, Michael, you h

  • python对网页文本的格式化实例方法

    1.一个网页通常包含文本信息.对于不同的文本类型,我们可以选择合适的HTML语义元素进行标记. 2.em元素用于标记和强调部分内容,small元素用于注释和署名文本. 实例 <body> <h1>论语学而篇第一</h1> <p><small> <b>作者:</b><abbr title="名丘,字仲尼">孔子<sup><a href="#" rel=&q

  • Python格式化文本段落之textwrap库

    一.前言 前文是针对普通的字符串数据进行处理.今天,我们要讲解的textwrap库,是对多文本进行处理的库.比如对于段落的缩进,填充,截取等,都可以通过textwrap库进行操作. 特别是自己编写打印程序的时候,可以使用该库进行校正文档非常便捷,大大的加快了文本格式的处理.话不多说,我们来一步步学习textwrap库. 二.切割文档 一般来说,一篇英文文档在不考虑换行的情况下,默认是填充整个文档行才切换至下一行的.现在,我们需要保证每行必须有且仅有50个字符怎么办? 我们可以使用textwrap

  • Python利用pangu模块实现文本格式化小工具

    其实使用pangu做文本格式标准化的业务代码在之前就实现了,主要能够将中文文本文档中的文字.标点符号等进行标准化. 但是为了方便起来我们这里使用了Qt5将其做成了一个可以操作的页面应用,这样不熟悉python的朋友就可以不用写代码直接双击运行使用就OK了. 为了使文本格式的美化过程不影响主线程的使用,特地采用QThread子线程来专门的运行文本文档美化的业务过程,接下来还是采用pip的方式将所有需要的非标准模块安装一下. pip install -i https://pypi.tuna.tsin

  • Python利用PaddleOCR制作个搜题小工具

    目录 介绍 安装 安装PaddlePaddle飞桨框架 安装PaddleOCR 代码使用 搜题小工具 安装ADB 截图并保存题目区域图片 OCR识别,获取题目 打开浏览器搜索 完整代码 介绍 PaddleOCR 是一个基于百度飞桨的OCR工具库,包含总模型仅8.6M的超轻量级中文OCR,单模型支持中英文数字组合识别.竖排文本识别.长文本识别.同时支持多种文本检测.文本识别的训练算法. 本教程将介绍PaddleOCR的基本使用方法以及如何使用它开发一个自动搜题的小工具. 项目地址 OR 安装 虽然

  • Python基于tkinter模块实现的改名小工具示例

    本文实例讲述了Python基于tkinter模块实现的改名小工具.分享给大家供大家参考,具体如下: #!/usr/bin/env python #coding=utf-8 # # 版权所有 2014 yao_yu # 本代码以MIT许可协议发布 # 文件名批量加.xls后缀 # 2014-04-21 创建 # import os import tkinter as tk from tkinter import ttk version = '2014-04-21' app_title = '文件名

  • python利用xlsxwriter模块 操作 Excel

    xlsxwriter 简介 用于以 Excel 2007+ XLSX 文件格式编写文件,相较之下 PhpSpreadsheet 支持更多的格式读写. 优点 文本,数字和公式写入,速度很快,占用内存小 支持诸如格式设置,图像,图表,页面设置,自动过滤器,条件格式设置等功能 缺点 无法读取或修改现有的 Excel XLSX 文件 演示 其使用流程,与你使用 excel 流程一致,只不过将你主步骤分解成了一个个对象实例来操作,通过引用实现操作关联 import xlsxwriter # 1.创建工作簿

  • Python利用PyAutoGUI模块实现控制鼠标键盘

    目录 前言 1.鼠标的相关控制 2.键盘的相关控制 前言 PyAutoGUI是一个简单易用,跨平台的可以模拟键盘鼠标进行自动操作的python库. 使用pip的方式安装pyautogui模块 pip install pyautogui pyautogui在使用的时候有两个比较关键的隐患(程序在启动起来以后很难关闭)需要注意一下.一是鼠标出现在屏幕的最上方会出现报错,二是键盘的自动操作太快,所以需要先设置一下相关的参数. import pyautogui as ui # 导入pyautogui代码

  • python 利用pywifi模块实现连接网络破解wifi密码实时监控网络

    python 利用pywifi模块实现连接网络破解wifi密码实时监控网络,具体内容如下: import pywifi from pywifi import * import time def CrackWifi(password): wifi = pywifi.PyWiFi() iface = wifi.interfaces()[0] # 取一个无限网卡 # 是否成功的标志 isok = True if(iface.status()!=const.IFACE_CONNECTED): profi

  • Python基于Tkinter模块实现的弹球小游戏

    本文实例讲述了Python基于Tkinter模块实现的弹球小游戏.分享给大家供大家参考,具体如下: #!usr/bin/python #-*- coding:utf-8 -*- from Tkinter import * import Tkinter import random import time #创建小球的类 class Ball: def __init__(self,canvas,paddle,color): #参数:画布,球拍和颜色 self.canvas = canvas self

  • python 利用turtle模块画出没有角的方格

    意思就是画四条直线,四条直线都不能相交即可. #!/usr/bin/python #coding: UTF-8 import turtle import time t = turtle.Pen() for x in range(4): t.up() t.forward(25) t.down() t.forward(100) t.up() t.forward(25) t.down() t.left(90) time.sleep(3) 执行结果见下图 以上这篇python 利用turtle模块画出没

  • python利用datetime模块计算程序运行时间问题

    **问题描述:**有如下程序输出日志,计算程序运行时间,显示花费623分钟? start time:2019-03-15 19:45:31.237894 end time:2019-03-17 06:09:01.415541 It cost 623 minutes 相关代码: import datetime s = '2019-03-15 19:45:31' s_datetime = datetime.datetime.strptime(s, '%Y-%m-%d %H:%M:%S') e = '

  • python利用os模块编写文件复制功能——copy()函数用法

    我就废话不多说了,大家还是直接看代码吧~ #文件复制 import os src_path=r'E:\Pycharm\python100题\代码' target_path=r'E:\Pycharm\python100题\123' #封装成函数 def copy_function(src,target): if os.path.isdir(src) and os.path.isdir(target): filelist=os.listdir(src) for file in filelist: p

随机推荐