python 实现批量图片识别并翻译

2025-02-20 14:11:09

近小编遇到一个生存问题，女朋友让我给她翻译英文化妆品标签。美其名曰："程序猿每天英语开发,英文一定很好吧，来帮我翻译翻译化妆品成分"，”来，帮我看看这个面膜建议敷几分钟“。。。。看来斥巨资买化妆品不算完，还需要会各种英文介绍。

默默收起大学考的一摞429分的四级证书，我打开了IDE。。。我打算开发一个能批量翻译的图片的demo，把家里的各种化妆品都翻译好。机智如我，是不会自己从训练模型做起的，打开有道智云的友好的AI接口页面，果然有图片翻译服务，体验了一下可是真不错，于是果断使用。

效果展示

Demo在这里，一起来看看效果吧：

识别过程如下：

逐个看看效果哈！make up for ever 虽然没翻译成玫珂菲，哈哈哈但是关键词长期保湿、固定喷雾都翻译出来了~~棒

这个更是不明觉厉,韩文、英文混合都能翻译~~~

樱花水的表现也不错哦~

再乱入一个开起来更像包装盒的图片识别，效果不错，没受图片上文字倾斜等影响：

调用API的准备工作——生成调用所需要的应用id和密钥

根据有道智云的接口约定，需要先在有道智云的个人页面上生成调用所需要的应用id和密钥，以便作为你的调用标识以及收费参考。。

具体步骤是：在有道智云的个人页面上创建实例、创建应用、绑定应用和实例，获取调用接口用到的应用的id和密钥。具体个人注册的过程和应用创建过程详见文章分享一次批量文件翻译的开发过程

开发过程介绍

1、api接口介绍

先介绍下该工程的核心部分，有道智云图片翻译服务的调用接口

API HTTPS地址：https://openapi.youdao.com/ocrtransapi

接口调用方式：POST

请求格式：表单

相应格式：JSON

接口调用参数
调用API需要向接口发送以下字段来访问服务。

字段名	类型	含义	必填	备注
type	text	文件上传类型	True	目前支持Base64，请置该字段值为1
from	text	源语言	True	参考下方的支持语言 (可设置为auto)
to	text	目标语言	True	参考下方的支持语言 (可设置为auto)
appKey	text	应用ID	True	可在应用管理查看
salt	text	UUID	True	1995882C5064805BC30A39829B779D7B
sign	text	签名	True	md5(应用Id+q+salt+应用密钥)
ext	text	翻译结果音频格式，支持mp3	false	mp3
q	text	要识别的图片	true	type为1时必填,图片的Base64编码
docType	text	服务器响应类型，目前只支持json	false	json
render	text	是否需要服务端返回渲染的图片，0：否；1：是，默认是0	false	0
nullIsError	text	如果ocr没有检测到文字，是否返回错误，false：否；true：是，默认是false	false	注意是字符串

签名生成方法如下：
1、将请求参数中的应用ID appKey , 图片的Base64编码 q ,UUID salt 和应用密钥按照应用ID+q+salt+应用密钥的顺序拼接得到字符串 str 。
2、对字符串 str 做 md5，得到32位大写的 sign (参考Java生成MD5示例,可点击右侧的JAVA示例)。

输出结果
返回的结果是json格式，具体说明如下：

字段名	字段说明
orientation	图片所对应的方向
lanFrom	ocr所识别出来认为的图片中的语言
textAngle	图片的倾斜角度
errorCode	错误码
lanTo	目标语言
resRegions	图片翻译的具体内容
-boundingBox	区域范围，四个值：左上角的x值，左上角的y值，区域的的宽，区域的高例如：134,0,1066,249
-linesCount	行数（用于前端排版）
-lineheight	行高
-context	该区域的原文
-linespace	行间距
-tranContent	翻译结果

2、详细开发

这个demo使用python3开发，包括maindow.py，transclass.py，pictranslate.py三个文件。maindow.py主要实现界面部分，使用python自带的tkinter库，来进行图片文件选择、选择结果存放路径。transclass.py实现了图片读取、处理等逻辑，最后通过pictranslate.py中的方法来调用图片翻译API。

1、界面部分
主要元素：

root=tk.Tk()
root.title("netease youdao translation test")
frm = tk.Frame(root)
frm.grid(padx='50', pady='50')
btn_get_file = tk.Button(frm, text='选择待翻译图片', command=get_files)
btn_get_file.grid(row=0, column=0, ipadx='3', ipady='3', padx='10', pady='20')
text1 = tk.Text(frm, width='40', height='10')
text1.grid(row=0, column=1)
btn_get_result_path=tk.Button(frm,text='选择翻译结果路径',command=set_result_path)
btn_get_result_path.grid(row=1,column=0)
text2=tk.Text(frm,width='40', height='2')
text2.grid(row=1,column=1)

btn_sure=tk.Button(frm,text="翻译",command=translate_files)
btn_sure.grid(row=2,column=1)

root.mainloop()

获取待翻译图片文件的方法（此处设置的仅支持.jpg文件）：

def get_files():
  files = filedialog.askopenfilenames(filetypes=[('text files', '.jpg')])
  translate.file_paths=files
  if files:
    for file in files:
      text1.insert(tk.END, file + '\n')
      text1.update()
  else:
    print('你没有选择任何文件')

获取结果存储路径:

def set_result_path():
  result_path=filedialog.askdirectory()
  translate.result_root_path=result_path
  text2.insert(tk.END,result_path)

翻译按钮，调用了translate_files，该文件中的translate_files()方法最终调用了translate类的translate_files()方法：

def translate_files():
  if translate.file_paths:
    translate.translate_files()
    tk.messagebox.showinfo("提示","搞定")
  else :
    tk.messagebox.showinfo("提示","无文件")

2、批量图片处理

transclass.py实现了图片读取、处理等逻辑，Translate类定义如下：

class Translate():
  def __init__(self,name,file_paths,result_root_path,trans_type):
    self.name=name
    self.file_paths=file_paths 			# 待翻译文件路径
    self.result_root_path=result_root_path # 结果存放路径
    self.trans_type=trans_type

  def translate_files(self):
    for file_path in self.file_paths:	#对批量图片逐个处理
      file_name=os.path.basename(file_path)
      print('==========='+file_path+'===========')
      trans_reult=self.translate_use_netease(file_path) #对单个图片调用接口
      resul_file=open(self.result_root_path+'/result_'+file_name.split('.')[0]+'.txt','w').write(trans_reult)   #返回结果写入

  def translate_use_netease(self,file_content): #调用有道接口，并返回结果
    result= connect(file_content)
    return result

3、有道api调用
pictranslate.py中封装了调用有道智云API的一些方法，其中最核心的是connect()方法，按照接口要求拼接了所需参数，发起请求并返回结果。

def connect(file_content,fromLan,toLan):
  f = open(file_content, 'rb') # 二进制方式打开图文件
  q = base64.b64encode(f.read()).decode('utf-8') # 读取文件内容，转换为base64编码
  f.close()
  data = {}
  # data['from'] = '源语言'
  # data['to'] = '目标语言'
  data['from'] = 'auto'
  data['to'] = 'auto'
  data['type'] = '1'
  data['q'] = q
  salt = str(uuid.uuid1())
  signStr = APP_KEY + q + salt + APP_SECRET
  sign = encrypt(signStr)
  data['appKey'] = APP_KEY
  data['salt'] = salt
  data['sign'] = sign

  response = do_request(data)
  result=json.loads(str(response.content, encoding="utf-8"))
  print(result)

  translateResults=result['resRegions']
  print(translateResults)
  pictransresult=""
  for i in translateResults:
    pictransresult=pictransresult+i['tranContent']+"\n"
  return pictransresult

总结

又是一次愉快的开发体验，而且还是为数不多的求生成功体验 : P ，没想到借助开放平台的力量，图像识别，自然语言处理变得如此易如反掌，只要能正确发起请求，就能得到不错的翻译结果，剩下大把的时间用来和女朋友炫技，这感觉——爽！

项目地址：https://github.com/LemonQH/BatchPicTranslate

以上就是python 实现批量图片识别并翻译的详细内容，更多关于python 图片识别并翻译的资料请关注我们其它相关文章！

python开发一款翻译工具

最近,某水果手机厂在万众期待中开了一场没有发布万众期待的手机产品的发布会,发布了除手机外的其他一些产品,也包括最新的水果14系统.几天后,更新了系统的吃瓜群众经过把玩突然发现新系统里一个超有意思的功能--翻译,比如这种: 奇怪的翻译知识增加了! 相比常见的翻译工具,同声翻译工具更具有实用价值,想想不精通其他语言就能和歪果朋友无障碍交流的场景,真是一件美事,不如自己动手实现个工具备用!一个同声翻译工具,逻辑大概可以是先识别,而后翻译,翻译能否成功,识别的准确率是个关键因素.为了降低难度,我决定分两
如何利用Python识别图片中的文字

一.前言不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的文字时,还是要一个字一个字打出来.那么我们能不能直接识别图片中的文字呢?答案是肯定的. 二.Tesseract 文字识别是ORC的一部分内容,ORC的意思是光学字符识别,通俗讲就是文字识别.Tesseract是一个用于文字识别的工具,我们结合Python使用可以很快的实现文字识别.但是在此之前我们需
Python基于内置库pytesseract实现图片验证码识别功能

这篇文章主要介绍了Python基于内置库pytesseract实现图片验证码识别功能,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下环境准备: 1.安装Tesseract模块 git文档地址:https://digi.bib.uni-mannheim.de/tesseract/ 下载后就是一个exe安装包,直接右击安装即可,安装完成之后,配置一下环境变量,编辑系统变量里面 path,添加下面的安装路径: 2.如果您想使用其他语言,请下载相应的
python实现在线翻译

本文实例为大家分享了python实现在线翻译的具体代码,供大家参考,具体内容如下具体效果请看图代码: import urllib.request import urllib.parse import json def translation(): while 1: print("-"*30) n = input("请选择:1 翻译 2 退出 :") if n =='1': content = input("请输入要翻译的内容:") url =
Python调用百度OCR实现图片文字识别的示例代码

百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法: 首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下: 创建后会获得如下信息: APP_ID = '******' API_KEY = '************' SECRET_KEY = '**************' 下面就是百度API包的安装,在终端cmd输入如下语句直接pip方式安装,注意是 baidu-api 哦! pip install --user baidu-aip 接下来上py
python利用google翻译方法实例（翻译字幕文件）

英文字幕确实让人头疼,因此,花了一天专门研究,用python实现了比较简单的翻译代码.仅有几十行首先加载模块 pip uninstall googletrans git clone https://github.com/BoseCorp/py-googletrans.git cd ./py-googletrans && python setup.py install 使用测试 from googletrans import Translator # 实例化 translator = Tr
python图片验证码识别最新模块muggle_ocr的示例代码

一.官方文档 https://pypi.org/project/muggle-ocr/ 二模块安装 pip install muggle-ocr # 因模块过新,阿里/清华等第三方源可能尚未更新镜像,因此手动指定使用境外源,为了提高依赖的安装速度,可预先自行安装依赖:tensorflow/numpy/opencv-python/pillow/pyyaml 三.使用代码 # 导入包 import muggle_ocr # 初始化:model_type 包含了 ModelType.OCR/Model
python调用有道智云API实现文件批量翻译

最近工作过程中,需要对一批文件进行汉译英的翻译,对单个文档手工复制.粘贴的翻译方式过于繁琐,考虑到工作的重复性和本人追求提高效率.少动手(懒),想通过调用已有的接口的方法,自己实现一个批量翻译工具,一劳永逸.在网上找了几款翻译API,通过对比翻译的结果和学习成本,选择了有道智云的服务,自己开发了一个批量翻译的小软件.详细记录一下使用和开发过程,后面的小伙伴们有相关需求,可以参考. 批量文档翻译工具的使用我这里开发批量文档翻译工具使用python作为开发工具,功能如下: 1)通过文件夹
Python实现图片识别加翻译功能

Python使用百度AI接口实现图片识别加翻译 python诞生30周年 # encoding:utf-8 import requests import base64 from PIL import Image import pytesseract # 这里需要安装一下 Tesseract-OCR # 链接:https://pan.baidu.com/s/1D2eODet7x9xshBVi6ZUZ_Q # 提取码:qfef # 安装好之后别忘了把Tesseract-OCR路径添加到环境变量中 i
python 识别登录验证码图片功能的实现代码（完整代码）

在编写自动化测试用例的时候,每次登录都需要输入验证码,后来想把让python自己识别图片里的验证码,不需要自己手动登陆,所以查了一下识别功能怎么实现,做一下笔记. 首选导入一些用到的库,re.Image.pytesseract.selenium.time import re # 用于正则 from PIL import Image # 用于打开图片和对图片处理 import pytesseract # 用于图片转文字 from selenium import webdriver # 用于打开网站
用Python制作mini翻译器的实现示例

1. 实例描述在平时编程的过程中,会经常在网上翻译一些单词,本文使用Python制作一款翻译小工具,不仅可以自己用,还可以嵌入到程序当中.运行程序,效果如下图所示,在文本框输入英文或中文,单击翻译按钮即可翻译,并将翻译内容显示在下面的文本框中.单击保存按钮将输入内容和翻译内容保存到文本文件中以便日后复习.单击清空按钮,将清除文本框中的内容. 2. 技术要点利用 requests 模块获取有道词典web 页面的 post 信息,获取需要的内容,通过 tkinter 模块生成窗口界

python 实现批量图片识别并翻译

相关推荐

随机推荐