从C语言中读取Python 类文件对象

问题

你要写C扩展来读取来自任何Python类文件对象中的数据(比如普通文件、StringIO对象等)。

解决方案

要读取一个类文件对象的数据,你需要重复调用 read() 方法,然后正确的解码获得的数据。

下面是一个C扩展函数例子,仅仅只是读取一个类文件对象中的所有数据并将其输出到标准输出:

#define CHUNK_SIZE 8192

/* Consume a "file-like" object and write bytes to stdout */
static PyObject *py_consume_file(PyObject *self, PyObject *args) {
 PyObject *obj;
 PyObject *read_meth;
 PyObject *result = NULL;
 PyObject *read_args;

 if (!PyArg_ParseTuple(args,"O", &obj)) {
  return NULL;
 }

 /* Get the read method of the passed object */
 if ((read_meth = PyObject_GetAttrString(obj, "read")) == NULL) {
  return NULL;
 }

 /* Build the argument list to read() */
 read_args = Py_BuildValue("(i)", CHUNK_SIZE);
 while (1) {
  PyObject *data;
  PyObject *enc_data;
  char *buf;
  Py_ssize_t len;

  /* Call read() */
  if ((data = PyObject_Call(read_meth, read_args, NULL)) == NULL) {
   goto final;
  }

  /* Check for EOF */
  if (PySequence_Length(data) == 0) {
   Py_DECREF(data);
   break;
  }

  /* Encode Unicode as Bytes for C */
  if ((enc_data=PyUnicode_AsEncodedString(data,"utf-8","strict"))==NULL) {
   Py_DECREF(data);
   goto final;
  }

  /* Extract underlying buffer data */
  PyBytes_AsStringAndSize(enc_data, &buf, &len);

  /* Write to stdout (replace with something more useful) */
  write(1, buf, len);

  /* Cleanup */
  Py_DECREF(enc_data);
  Py_DECREF(data);
 }
 result = Py_BuildValue("");

 final:
 /* Cleanup */
 Py_DECREF(read_meth);
 Py_DECREF(read_args);
 return result;
}

要测试这个代码,先构造一个类文件对象比如一个StringIO实例,然后传递进来:

>>> import io
>>> f = io.StringIO('Hello\nWorld\n')
>>> import sample
>>> sample.consume_file(f)
Hello
World
>>>

讨论

和普通系统文件不同的是,一个类文件对象并不需要使用低级文件描述符来构建。 因此,你不能使用普通的C库函数来访问它。 你需要使用Python的C API来像普通文件类似的那样操作类文件对象。

在我们的解决方案中,read() 方法从被传递的对象中提取出来。 一个参数列表被构建然后不断的被传给 PyObject_Call() 来调用这个方法。 要检查文件末尾(EOF),使用了 PySequence_Length() 来查看是否返回对象长度为0.

对于所有的I/O操作,你需要关注底层的编码格式,还有字节和Unicode之前的区别。 本节演示了如何以文本模式读取一个文件并将结果文本解码为一个字节编码,这样在C中就可以使用它了。 如果你想以二进制模式读取文件,只需要修改一点点即可,例如:

...
/* Call read() */
if ((data = PyObject_Call(read_meth, read_args, NULL)) == NULL) {
 goto final;
}

/* Check for EOF */
if (PySequence_Length(data) == 0) {
 Py_DECREF(data);
 break;
}
if (!PyBytes_Check(data)) {
 Py_DECREF(data);
 PyErr_SetString(PyExc_IOError, "File must be in binary mode");
 goto final;
}

/* Extract underlying buffer data */
PyBytes_AsStringAndSize(data, &buf, &len);
...

本节最难的地方在于如何进行正确的内存管理。 当处理 PyObject * 变量的时候,需要注意管理引用计数以及在不需要的变量的时候清理它们的值。 对 Py_DECREF() 的调用就是来做这个的。

本节代码以一种通用方式编写,因此他也能适用于其他的文件操作,比如写文件。 例如,要写数据,只需要获取类文件对象的 write() 方法,将数据转换为合适的Python对象 (字节或Unicode),然后调用该方法将输入写入到文件。

最后,尽管类文件对象通常还提供其他方法(比如readline(), read_info()), 我们最好只使用基本的 read() write() 方法。 在写C扩展的时候,能简单就尽量简单。

以上就是从C语言中读取Python 类文件对象的详细内容,更多关于C语言中读取Python类文件的资料请关注我们其它相关文章!

(0)

相关推荐

  • 解决c++调用python中文乱码问题

    windows中文操作系统下,vs的c++项目默认编码是GB2312 python默认是utf-8编码 最好在c++程序顶上加: #pragma execution_character_set("GB2312") c++中的字符串一定就是gbk编码 传入python前要做编码转换 准备一个gbk转utf8的函数,如下(网上的): string GbkToUtf8(const char* src_str) { int len = MultiByteToWideChar(CP_ACP, 0

  • python使用magic模块进行文件类型识别方法

    代码实例 python-magic是libmagic文件类型识别库的python接口. libmagic通过根据预定义的文件类型列表检查它们的头文件来识别文件类型. 这个功能通过Unix命令文件暴露给命令行. >>> import magic >>> magic.from_file("testdata/test.pdf") 'PDF document, version 1.2' >>> magic.from_buffer(open(

  • Python 从一个文件中调用另一个文件的类方法

    如果是在同一个 module中(也就是同一个py文件里),直接用就可以 如果在不同的module里,例如 a.py里有 class A: b.py 里有 class B: 如果你要在class B里用class A 需要在 b.py的开头写上 from a import A 举个例子: 比如我在文件lingkingtables.py的文件中构造了三个类,在另一个文件中想要引用这三个类,那么用如下语句即可 from lingkingtables import Lnode from lingking

  • Python把对应格式的csv文件转换成字典类型存储脚本的方法

    该脚本是为了结合之前的编写的脚本,来实现数据的比对模块,实现数据的自动化!由于数据格式是定死的,该代码只做参考,有什么问题可以私信我! CSV的数据格式截图如下: readDataToDic.py源代码如下: #coding=utf8 import csv ''' 该模块的主要功能,是根据已有的csv文件, 通过readDataToDicl函数,把csv中对应的部分, 写入字典中,每个字典当当作一条json数据 ''' class GenExceptData(object): def __ini

  • Python定义一个Actor任务

    问题 你想定义跟actor模式中类似"actors"角色的任务 解决方案 actor模式是一种最古老的也是最简单的并行和分布式计算解决方案. 事实上,它天生的简单性是它如此受欢迎的重要原因之一. 简单来讲,一个actor就是一个并发执行的任务,只是简单的执行发送给它的消息任务. 响应这些消息时,它可能还会给其他actor发送更进一步的消息. actor之间的通信是单向和异步的.因此,消息发送者不知道消息是什么时候被发送, 也不会接收到一个消息已被处理的回应或通知. 结合使用一个线程和一

  • 通过python将大量文件按修改时间分类的方法

    需求是这样的,我从本科到现在硬盘里存了好多照片,本来是按类别分的,有一天,我突然想,要是能按照时间来分类可能会更好.可以右键查看照片的属性,看它的修改日期,从而分类,但是十几个G的照片手动分类工作量还是很大的,所以想着写个脚本程序来完成这一个工作. 程序主要是获取文件的修改时间,包括年和月,并以此为名创建文件夹,再用递归调用的方式遍历整个文件夹,将每一张照片拷贝到相应的文件夹下. 程序源码如下: #coding:utf-8 import os import sys import os.path

  • Python 创建TCP服务器的方法

    问题 你想实现一个服务器,通过TCP协议和客户端通信. 解决方案 创建一个TCP服务器的一个简单方法是使用 socketserver 库.例如,下面是一个简单的应答服务器: from socketserver import BaseRequestHandler, TCPServer class EchoHandler(BaseRequestHandler): def handle(self): print('Got connection from', self.client_address) w

  • C语言调用Python代码的方法

    问题 你想在C中安全的执行某个Python调用并返回结果给C. 例如,你想在C语言中使用某个Python函数作为一个回调. 解决方案 在C语言中调用Python非常简单,不过涉及到一些小窍门. 下面的C代码告诉你怎样安全的调用: #include <Python.h> /* Execute func(x,y) in the Python interpreter. The arguments and return result of the function must be Python flo

  • python 检查文件mime类型的方法

    magic 模块可以检查文件的mime类型,而不是从后缀名来判断,例如判断文件是不是视频或图片类型如下: #检查文件类型 mime_type = magic.from_file(full_path,mime=True) logger.info("上传的文件类型:"+str(mime_type)) if not mime_type.startswith('video') and not mime_type.startswith('image'): logger.error("非

  • 详解C语言和Python中的线程混用

    问题 你有一个程序需要混合使用C.Python和线程, 有些线程是在C中创建的,超出了Python解释器的控制范围. 并且一些线程还使用了Python C API中的函数. 解决方案 如果你想将C.Python和线程混合在一起,你需要确保正确的初始化和管理Python的全局解释器锁(GIL). 要想这样做,可以将下列代码放到你的C代码中并确保它在任何线程被创建之前被调用. #include <Python.h> ... if (!PyEval_ThreadsInitialized()) { P

  • python遍历文件目录、批量处理同类文件

    本文实例为大家分享了python遍历文件目录.批量处理同类文件的具体代码,供大家参考,具体内容如下 目录操作 1.获取当前目录 import os curr_path=os.path.dirname(__file__) #返回当前文件所在的目录,即当前运行的脚本所在父目录 print curr_path 运行示例 (1)使用os.path.dirname(__file__)时,是针对运行时对所给程序脚本的路径来获取父目录的,即截取你输入的脚本路径的所在目录名称,如上图示例,输入绝对路径时返回绝对

  • python调用其他文件函数或类的示例

    B.py调用A.py的函数或类 在同一个文件夹下 调用函数: A.py文件: def add(x,y): print('和为:%d'%(x+y)) B.py文件: import A A.add(1,2) 或 from A import add add(1,2) 调用类: A.py文件: class A: def __init__(self,xx,yy): self.x=xx self.y=yy def add(self): print("x和y的和为:%d"%(self.x+self.

随机推荐