python批量翻译excel表格中的英文

目录
  • 需求背景
  • 主要设计
  • 分析
  • 具体实现
    • 表格操作
    • 请求百度翻译api
    • 多线程
    • 控制台显示进度
  • 完整源码

需求背景

女朋友的论文需要爬取YouTube视频热评,但爬下来的都是外文。

主要设计

  • 读取一个表格文件,获取需要翻译的文本
  • 使用百度翻译 API 进行翻译,获取翻译结果
  • 将翻译结果保存到原表格中,然后提取需要的列组成一个新的 DataFrame
  • 处理多个表格文件,将它们的翻译结果分别保存
  • 使用线程池加速翻译过程,可以同时翻译多个表格
  • 显示进度条

分析

  • 目标文件为xlsx格式,可以借助pandas进行读取文件和生成文件的操作。在这里我的源文件有若干列,其中第2列评论内容为我的目标列。
  • 在这里我用的是百度翻译api接口。也可以googletrans、translate,这些库可以在本地使用,不需要申请API密钥,但是翻译质量和速度可能不如云服务。
  • 由于我每个表格有2000行数据,总共有10个表格,一个个来的话不仅麻烦效率还低。
  • 我需要知道任务的进度,不想一直等下去

具体实现

表格操作

def TranslateTable(sInputFilename, sOutputFilename):
    # 读取表格A并选择需要翻译的列
    df_a = pd.read_excel(sInputFilename) # 获取df对象
    df_a = df_a.iloc[:, [1, 2]]  # iloc和loc很像,i=index,
    # 翻译英文列
    df_a['translation'] = df_a.iloc[:, 0].apply(Translate)
    # 创建表格B并保存
    df_b = pd.DataFrame({
        '原文': df_a.iloc[:, 0],
        '译文': df_a.iloc[:, 2]
    })
    df_b.to_excel(sOutputFilename, index=False)

请求百度翻译api

def Translate(sText, from_lang='en', to_lang='zh'):
    appid = 'xxxxxx'
    secret_key = 'xxxxxx'
    url = 'https://fanyi-api.baidu.com/api/trans/vip/translate'
    salt = random.randint(32768, 65536)
    sign = hashlib.md5((appid + sText + str(salt) + secret_key).encode()).hexdigest()
    params = {
        'q': sText,
        'from': from_lang,
        'to': to_lang,
        'appid': appid,
        'salt': salt,
        'sign': sign
    }
    response = requests.get(url, params=params)
    result = json.loads(response.content.decode())
    if result.get('error_code') is not None:
        return None
    return result['trans_result'][0]['dst']

多线程

使用concurrent.futures库中的 ThreadPoolExecutor类来实现多线程处理。

  • 创建一个 ThreadPoolExecutor对象。
  • 在循环中遍历每个表格A,并使用 submit方法向线程池提交任务。 submit方法将表格A的文件名和表格B的文件名作为参数传递给 translate_column函数,该函数将在单独的线程中执行。

ThreadPoolExecutor会自动管理线程池的大小,并在有空闲线程时分配新任务。这种方式可以利用多个CPU核心来并行处理多个表格,提高处理速度。

def TranslateTables(sInputFolder, sOutputFolder):
    sInputFilenames = [os.path.join(sInputFolder, f) for f in os.listdir(sInputFolder) if f.endswith('.xlsx')]
    with ThreadPoolExecutor() as executor:
        lstFutures = []
        for sInputFilename in sInputFilenames:
            sFilename = os.path.splitext(os.path.basename(sInputFilename))[0]
            sOutputFilename = os.path.join(sOutputFolder, sFilename + '_翻译结果.xlsx')
            lstFutures.append(executor.submit(TranslateTable, sInputFilename, sOutputFilename))
        for future in tqdm(as_completed(lstFutures), total=len(lstFutures)):
            pass

控制台显示进度

使用 concurrent.futures.as_completed 函数显示进度条。

完整源码

# -*- coding: utf-8 -*-
# time: 2022/2/17 03:06
# file: test.py
# author: Shi Yasong

"""
主要功能功能:
    1、读取一个表格文件,获取需要翻译的文本。
    2、使用百度翻译 API 进行翻译,获取翻译结果。
    3、将翻译结果保存到原表格中,然后提取需要的列组成一个新的 DataFrame。
    4、处理多个表格文件,将它们的翻译结果合并到一个 DataFrame 中,然后分别保存。
    5、使用线程池加速翻译过程,可以同时翻译多个表格
    6、使用  concurrent.futures.as_completed 函数显示进度条。
"""

from concurrent.futures import ThreadPoolExecutor, as_completed
from tqdm import tqdm  # 进度条库,需要先安装

import pandas as pd
import requests
import json
import os
import hashlib
import random

def Translate(sText, from_lang='en', to_lang='zh'):
    appid = 'xxxx'
    secret_key = 'xxxxx'
    url = 'https://fanyi-api.baidu.com/api/trans/vip/translate'
    salt = random.randint(32768, 65536)
    sign = hashlib.md5((appid + sText + str(salt) + secret_key).encode()).hexdigest()
    params = {
        'q': sText,
        'from': from_lang,
        'to': to_lang,
        'appid': appid,
        'salt': salt,
        'sign': sign
    }
    response = requests.get(url, params=params)
    result = json.loads(response.content.decode())
    if result.get('error_code') is not None:
        return None
    return result['trans_result'][0]['dst']

def TranslateTable(sInputFilename, sOutputFilename):
    # 读取表格A并选择需要翻译的列
    df_a = pd.read_excel(sInputFilename) # 获取df对象
    df_a = df_a.iloc[:, [1, 2]]  # iloc和loc很像,i=index,
    # 翻译英文列
    df_a['translation'] = df_a.iloc[:, 0].apply(Translate)
    # 创建表格B并保存
    df_b = pd.DataFrame({
        '原文': df_a.iloc[:, 0],
        '译文': df_a.iloc[:, 2]
    })
    df_b.to_excel(sOutputFilename, index=False)

def TranslateTables(sInputFolder, sOutputFolder):
    sInputFilenames = [os.path.join(sInputFolder, f) for f in os.listdir(sInputFolder) if f.endswith('.xlsx')]
    with ThreadPoolExecutor() as executor:
        lstFutures = []
        for sInputFilename in sInputFilenames:
            sFilename = os.path.splitext(os.path.basename(sInputFilename))[0]
            sOutputFilename = os.path.join(sOutputFolder, sFilename + '_翻译结果.xlsx')
            lstFutures.append(executor.submit(TranslateTable, sInputFilename, sOutputFilename))
        for future in tqdm(as_completed(lstFutures), total=len(lstFutures)):
            pass

# 调用函数翻译多个表格
sInputFolder = r'C:\Users\lenovo\Desktop\english'  # 修改为实际的表格文件夹路径
sOutputFolder = r'C:\Users\lenovo\Desktop\zh'  # 修改为实际的表格文件夹路径
TranslateTables(sInputFolder, sOutputFolder)

到此这篇关于python批量翻译excel表格中的英文的文章就介绍到这了,更多相关python批量翻译内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python实现批量翻译的示例代码

    目录 截图 源码 Translator.py Log.py Utils.py 简单的使用案例 Python版本 截图 源码 Translator.py #!/usr/bin/python # -*- coding: UTF-8 -*- from copy import deepcopy from distutils.log import Log from email import utils import json import http.client #修改引用的模块 import hashl

  • 教你如何利用Python批量翻译英文Word文档并保留格式

    一.需求描述 手上有大量外文文档(本案例以5份为例,分别命名为 test1.docx test2.docx 以此类推),其中一份如下: 基本需求:「批量将这些文档的内容全部翻译成中文,并转存到新的文件中」,效果如下: 高级需求:基本需求满足的同时,要求 「保留原文档的格式」,效果如下: 二.逻辑梳理 2.1 翻译 API 本需求的核心是翻译,策略是利用网络的翻译 API,这里推荐百度翻译开放平台,不考虑并发数的话可以用标准版,免费使用不限字符量! " 百度翻译开放平台:http://api.fa

  • python批量将excel内容进行翻译写入功能

    由于小编初来乍到,有很多地方不是很到位,还请见谅,但是很实用的哦! 1.首先是需要进行文件的读写操作,需要获取文件路径,方式使用os.listdir(路径)进行批量查找文件. file_path = '/home/xx/xx/xx' # ret 返回一个列表 ret = list_dir = os.listdir(file_path) # 遍历列表,获取需要的结尾文件(只考虑获取文件,不考虑执行效率) for i in ret : if i.endswith('xlsx'): # 执行的逻辑 2

  • 用 Python 写的文档批量翻译工具效果竟然超出想象

    大家好,我是启航. 本文将给大家分享一个实用的Python办公自动化脚本 「利用Python批量翻译英文Word文档并保留格式」,最终效果甚至比部分收费的软件还要好!先来看看具体的工作内容. 一.需求描述 手上有大量外文文档(本案例以5份为例,分别命名为 test1.docx test2.docx 以此类推),其中一份如下: 基本需求:「批量将这些文档的内容全部翻译成中文,并转存到新的文件中」,效果如下: 高级需求:基本需求满足的同时,要求 「保留原文档的格式」,效果如下: 二.逻辑梳理 1.

  • Python 实现的 Google 批量翻译功能

    首先声明,没有什么不良动机,因为经常会用 translate.google.cn,就想着用 Python 模拟网页提交实现文档的批量翻译.据说有 API,可是要收费. 生成 Token Google 为防爬虫而生成 token 的代码是 Javascript 的,且是根据网站的 TKK 值和提交的文本动态生成.更新规律未知,只好定时去取一下了. 网上能找到的 Python 代码大部分是去调用 PyExecJS 库,先不说执行效率的高低(大概是差一个数量级),首先是舍近求远,不纯粹,本人不喜欢.

  • python调用有道智云API实现文件批量翻译

    最近工作过程中,需要对一批文件进行汉译英的翻译,对单个文档手工复制.粘贴的翻译方式过于繁琐,考虑到工作的重复性和本人追求提高效率.少动手(懒),想通过调用已有的接口的方法,自己实现一个批量翻译工具,一劳永逸.在网上找了几款翻译API,通过对比翻译的结果和学习成本,选择了有道智云的服务,自己开发了一个批量翻译的小软件.详细记录一下使用和开发过程,后面的小伙伴们有相关需求,可以参考. 批量文档翻译工具的使用 我这里开发批量文档翻译工具使用python作为开发工具,功能如下:      1)通过文件夹

  • python 实现批量图片识别并翻译

    近小编遇到一个生存问题,女朋友让我给她翻译英文化妆品标签.美其名曰:"程序猿每天英语开发,英文一定很好吧,来帮我翻译翻译化妆品成分","来,帮我看看这个面膜建议敷几分钟"....看来斥巨资买化妆品不算完,还需要会各种英文介绍. 默默收起大学考的一摞429分的四级证书,我打开了IDE...我打算开发一个能批量翻译的图片的demo,把家里的各种化妆品都翻译好.机智如我,是不会自己从训练模型做起的,打开有道智云的友好的AI接口页面 ,果然有图片翻译服务,体验了一下可是真不

  • python批量翻译excel表格中的英文

    目录 需求背景 主要设计 分析 具体实现 表格操作 请求百度翻译api 多线程 控制台显示进度 完整源码 需求背景 女朋友的论文需要爬取YouTube视频热评,但爬下来的都是外文. 主要设计 读取一个表格文件,获取需要翻译的文本 使用百度翻译 API 进行翻译,获取翻译结果 将翻译结果保存到原表格中,然后提取需要的列组成一个新的 DataFrame 处理多个表格文件,将它们的翻译结果分别保存 使用线程池加速翻译过程,可以同时翻译多个表格 显示进度条 分析 目标文件为xlsx格式,可以借助pand

  • Python办公自动化之教你用Python批量识别发票并录入到Excel表格中

    一.场景描述 这里有以四张发票为例(辰哥网上搜的),将发票图片放到pic文件夹下. 随便打开一张发票 提取目标:金额.名称.纳税人识别号.开票人. 最后将每一张发票的这四个内容保存到excel中: 二.准备环境 需要用到的库如下: from PIL import Image as PI import pyocr import pyocr.builders from cnocr import CnOcr 安装的命令如下: pip install pyocr pip install cnocr 发票

  • 如何利用python批量提取txt文本中所需文本并写入excel

    目录 1.提取txt文本 2.增加数据框的列 3.引入基础csv数据,并扩列 汇总 总结 1.提取txt文本 我想要的文本是如图所示,宝可梦的外貌描述文本,由于原本的数据源结构并不是很稳定,而且也不是表格形式,因此在csdn上查了半天. 最原始的一行一行提取(不建议,未采用) fi = open("D:\python_learning\data\data\Axew.txt","r",encoding="utf-8") wflag =False #

  • Java实现批量导入excel表格数据到数据库中的方法

    本文实例讲述了Java实现批量导入excel表格数据到数据库中的方法.分享给大家供大家参考,具体如下: 1.创建导入抽象类 package com.gcloud.common.excel; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.PrintStream; import java.sql.SQLException;

  • Python获取数据库数据并保存在excel表格中的方法

    将数据库中的数据保存在excel文件中有很多种方法,这里主要介绍pyExcelerator的使用. 一.前期准备(不详细介绍MySQL) python包pyExcelerator和MySQLdb 导入方法:(以Pycharm为例) 在File->Settings中点击右上角绿色图标"+", 输入pyExcelerator,点击install package,导入成功之后点击OK,就完成了pyExcelerator的导入. 2.使用pyExcelerator对excel进行操作 #

  • 如何利用Python处理excel表格中的数据

    目录 一.基础.常用方法 二.提高 三.出错 总结 一.基础.常用方法 1. 读取excel 1.导入模块: import xlrd 2.打开文件: x1 = xlrd.open_workbook("data.xlsx") 3.获取sheet: sheet是指工作表的名称,因为一个excel有多个工作表 获取所有sheet名字:x1.sheet_names() 获取sheet数量:x1.nsheets 获取所有sheet对象:x1.sheets() 通过sheet名查找:x1.shee

  • 利用python将 Matplotlib 可视化插入到 Excel表格中

    目录 数据可视化 图表插入Excel 前言: 在生活中工作中,我们经常使用Excel用于储存数据,Tableau等BI程序处理数据并进行可视化.我们也经常使用R.Python编程进行高质量的数据可视化,生成制作了不少精美优雅的图表. 但是如何将这些“优雅”延续要Excel中呢?Python绘图库有很多,我们就还是拿最基本的Matplotlib为例. 今天就为大家演示一下,如何将Matplotlib绘制的可视化图片,插入到Excel中. 其他可视化库生成的图片,也同样适用 数据可视化 目前Pyth

  • 零基础使用Python读写处理Excel表格的方法

    引 由于需要解决大批量Excel处理的事情,与其手工操作还不如写个简单的代码来处理,大致选了一下感觉还是Python最容易操作. 安装库Python环境 首先当然是配环境,不过选Python的一个重要原因就是Mac内是自带Python环境的,不需要额外的配置环境,省下了一笔工作,如果你用的是Windows系统,那就还需要配置一下Python的环境了,我Mac的Python版本是2.7. 第三方库 Python自己是不支持直接操作Excel的,但是Python强大之处就在于有大量好用的第三方库,这

  • python实现读取excel文件中所有sheet操作示例

    本文实例讲述了python实现读取excel文件中所有sheet操作.分享给大家供大家参考,具体如下: 表格是这样的 实现把此文件所有sheet中 标识为1 的行,取出来,存入一个字典.所有行组成一个列表. # -*- coding: utf-8 -*- from openpyxl import load_workbook def get_data_from_excel(excel_dir):#读取excel,取出所有sheet要执行的接口信息,返回列表 work_book = load_wor

随机推荐