解决python大批量读写.doc文件的问题

2025-04-06 04:51:24

前言：

java语言读写.doc的出现乱码问题：

大家都知道当我们利用java语言读写.doc文件时，无论是利用流的方式将.doc文件的内容输出到控制台(console)，还是将其写到其他文件中，无论你采取何种编码格式（utf-8，gbk等）输出，你看到的内容99%都是乱码。

java语言读写.doc的出现乱码问题原因分析：

.doc文件是微软开发的用于办公的编辑文字的软件之一，如果说一篇word文档的字体格式采用的是utf-8，那么你采用utf-8格式读写该文档，应该能够正确输出汉字，但是一旦你的word文档里面的字体的尺寸改变，字体加上颜色属性，字体加上某种style时，那么本篇word文档的格式就变了，而不再是utf-8，因此采用utf-8格式输出99%都是乱码。

利用java语言读写.doc文档避免乱码的解决方案：(sun公司pk微软公司)

可以利用sun公司开发的poi包，该包提供修改微软办公软件的接口，利用poi包读写.doc文件，通常就不会产生乱码。如果看到这里你就大概认为，我终于可以利用java去处理.doc文件了，那么我想说的是，你开心的太早了。据我所知，截止到2017年12月22日，poi包的最新版本是3.1.7版，你也许对该版本没有什么概念，3.1.7版本的poi包只能处理微软2007版本的word，excel，ppt等，也就是说poi3.1.7版本的jar包不支持处理咱们电脑上顶配的word2016，因此可以说你可以放弃使用java读写word2016了。但是你也可以尝试用其他的接口去处理word,但是效率都不会比poi接口高，幸运的是，官网显示poi最新版本将在2017年12月份推出，但是截止到2017年12月22日，我还没有在官网看到此jar包。

正文：

python在处理文档的语言处理方面比java更胜一筹，毕竟python结合正则表达式在自然语言处理方面还是很强势的。最近在做深度学习的项目，需要解析并处理几百个数量级的.doc文件。众所周知，python读写.txt文档可以说一路畅通无阻，不管你中文是什么格式；python在读写.docx文档时，也比较畅通，最多你需要在命令行安装python-docx (0.8.6)，就可以读写.docx文档了，具体读写方案，下述。

问题：python无法读取.doc文件（而不是.docx文件）

解决方案：利用python将大批.doc文件转化为.docx文件，再读写.docx文件

问题分析：python利用python-docx (0.8.6)库可以读取.docx文件或.txt文件，且一路畅通无阻，而对.doc文件本身python是无能为力的，那有很多同学就不服气，我手动把.doc文件的后缀名改为.docx或.txt不就解决问题了吗？答案是不能的，简单修改后缀名，那么文件就被你玩坏了，别说打不开，就是打开也是天书啊（乱码）。python无法操作.doc文件是他的先天不足，但是我们不要钻牛角尖一定要在互联网上找到一种源码直接读取.doc文件，一调用就好了，但是不幸的是，你可能在网上也找不到解决方案。正当我一筹莫展之时，我将.doc文档利用手动的方式“另存为”.docx文档，就能够成功打开转化后的.docx文档，于是我就尝试利用代码方式完成这个手动的“另存为”功能，问题得以解决。

直接上python代码（首先你需要先安装pypewin32库）：

# -*- coding: utf-8 -*-：
import sys
import pickle
import re
import codecs
import string
import shutil
from win32com import client as wc

def doSaveAas(): # 想批处理文件，你就用for循环呗，我一次性处理了100多个文件，代码执行不超过2分钟，可以解决问题，目标文件路径可以自由改动，大家注意SaveAs方法中的参数，好多啊，别写错了

word = wc.Dispatch('Word.Application')
doc = word.Documents.Open(u'C:\\Users\\X\\PycharmProjects\\1\\大家好.doc')  # 目标路径下的文件
doc.SaveAs(u'C:\\Users\\X\\PycharmProjects\\1\\我是一枚小小的程序员X007.docx', 12, False, "", True, "", False, False, False, False) # 转化后路径下的文件
doc.Close()
word.Quit()

转化为.docx文件后，在处理.docx文件，一路畅通无阻，网上很多解决方案，这里我就不详细说了，有问题，可以给我留言哟

以上这篇解决python大批量读写.doc文件的问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

您可能感兴趣的文章:

Python文件的读写和异常代码示例
Python读写txt文本文件的操作方法全解析
Python实现批量读取word中表格信息的方法

Python读写txt文本文件的操作方法全解析

一.文件的打开和创建 >>> f = open('/tmp/test.txt') >>> f.read() 'hello python!\nhello world!\n' >>> f <open file '/tmp/test.txt', mode 'r' at 0x7fb2255efc00> 二.文件的读取步骤:打开 -- 读取 -- 关闭 >>> f = open('/tmp/test.txt') >>&
Python文件的读写和异常代码示例

一.从文件中读取数据 #!/usr/bin/env python with open('pi') as file_object: contents = file_object.read() print(contents) =================================== 3.1415926 5212533 2324255 1.逐行读取 #!/usr/bin/env python filename = 'pi' with open(filename) as file_obje
Python实现批量读取word中表格信息的方法

本文实例讲述了Python实现批量读取word中表格信息的方法.分享给大家供大家参考.具体如下: 单位收集了很多word格式的调查表,领导需要收集表单里的信息,我就把所有调查表放一个文件里,写了个python小程序把所需的信息打印出来 #coding:utf-8 import os import win32com from win32com.client import Dispatch, constants from docx import Document def parse_doc(f):
解决python大批量读写.doc文件的问题

前言: java语言读写.doc的出现乱码问题: 大家都知道当我们利用java语言读写.doc文件时,无论是利用流的方式将.doc文件的内容输出到控制台(console),还是将其写到其他文件中,无论你采取何种编码格式(utf-8,gbk等)输出,你看到的内容99%都是乱码. java语言读写.doc的出现乱码问题原因分析: .doc文件是微软开发的用于办公的编辑文字的软件之一,如果说一篇word文档的字体格式采用的是utf-8,那么你采用utf-8格式读写该文档,应该能够正确输出汉字,但是一旦
基于Python获取docx/doc文件内容代码解析

这篇文章主要介绍了基于Python获取docx/doc文件内容代码解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下整体思路: 下载文件并修改后缀为zip文件,解压zip文件,所要获取的内容在固定的文件夹下:work/temp/word/document.xml 所用包,全部是python自带,不需要额外下载安装． # encoding:utf-8 import os import re import requests import zipf
PHP基于文件锁解决多进程同时读写一个文件问题示例

本文实例讲述了PHP基于文件锁解决多进程同时读写一个文件问题.分享给大家供大家参考,具体如下: 首先PHP是支持进程的而不支持多线程(这个先搞清楚了),如果是对于文件操作,其实你只需要给文件加锁就能解决,不需要其它操作,PHP的flock已经帮你搞定了. 用flock在写文件前先锁上,等写完后解锁,这样就实现了多线程同时读写一个文件避免冲突.大概就是下面这个流程 /* *flock(file,lock,block) *file 必需,规定要锁定或释放的已打开的文件 *lock 必需.规定要使用哪
解决python使用open打开文件中文乱码的问题

代码如下: 先在D盘下新建一个html文档,然后在里面输入含有中文的Html字符如下图,然后我们首先使用中文格式对读取的字符进行解码再用utf-8的模式对字符进行进行编码,然后就能正确输出中文字符 # -*- coding: UTF-8 -*- file1 = open("D:/1.html", mode='rb+') data = file1.read().decode('gbk').encode('utf-8') print data 以上这篇解决python使用open打开文件中
python逐行读写txt文件的实例讲解

实例如下所示: # -*-coding:utf-8-*- import os file_obj = open("test2.txt") all_lines = file_obj.readlines() for line in all_lines: print line file_obj.close() # 写之前,先检验文件是否存在,存在就删掉 if os.path.exists("dest.txt"): os.remove("dest.txt"
解决python打不开文件(文件不存在)的问题

今天使用 import pandas users = pandas.read_csv("H:\python\data analysis\countries.csv") 问题引入数据集,奇怪的是怎么也打不开,显示不存在这个文件: 但是,我将文件改个名字,就打开了,难道csv的文件命名必须有一定合法性? 尝试由此,我试了几个别的名字,直到我尝试了u开头的原因终于明白了,因为写路径的时候用到的\,python默认是\u.\r .\t 等等转义字符,所以我把路径的\换成\\ 不仅是文
Python如何读写CSV文件

CSV文件是一种纯文本文件,它使用特定的结构来排列表格数据. CSV文件内容看起来应该是下面这样的: column 1 name,column 2 name, column 3 name first row data 1,first row data 2,first row data 3 second row data 1,second row data 2,second row data 3 ... 每段数据是如何用逗号分隔的.通常,第一行标识每个数据块--换句话说,数据列的名称.之后的每一行
解决python将xml格式文件转换成txt文件的问题(xml.etree方法)

概述先来介绍一下xml格式的文件,从数据分析的角度去看xml格式的数据集,具有以下的优点开放性(能在任何平台上读取和处理数据,允许通过一些网络协议交换xml数据).简单性(纯文本,能在不同的系统之间交换数据).结构和内容分离(不同于HTML,数据的显示和数据本身是分开的).可扩展性(派生出其他标记语言) 问题描述那么我们在进行数据分析的时候,如何运用xml里面的数据呢? 我们就需要将这类文件转化成其他类型的文件. (其实我认为说成提取xml的数据组成新的类型文件比较好一点) 就我个人的观点,
解决Python2.7读写文件中的中文乱码问题

Python2.7对于中文编码的问题处理的并不好,这几天在爬数据的时候经常会遇到中文的编码问题.但是本人对编码原理不了解,也没时间深究其中的原理.在此仅从应用的角度做一下总结, 1.设置默认编码在Python代码中的任何地方出现中文,编译时都会报错,这时可以在代码的首行添加相应说明,明确utf-8编码格式,可以解决一般情况下的中文报错.当然,编程中遇到具体问题还需具体分析啦. #encoding:utf-8 或者 # -*- coding: utf-8 -*- import sys reloa
python里读写excel等数据文件的6种常用方式(小结)

下面整理下python有哪些方式可以读取数据文件. 1. python内置方法(read.readline.readlines) read() : 一次性读取整个文件内容.推荐使用read(size)方法,size越大运行时间越长 readline() :每次读取一行内容.内存不够时使用,一般不太用 readlines() :一次性读取整个文件内容,并按行返回到list,方便我们遍历 2. 内置模块(csv) python内置了csv模块用于读写csv文件,csv是一种逗号分隔符文件,是数据科学

解决python大批量读写.doc文件的问题

您可能感兴趣的文章:

相关推荐

随机推荐