Python虚拟机栈帧对象及获取源码学习

目录
  • Python虚拟机
  • 1. 栈帧对象
    • 1.1 PyFrameObject
    • 1.2 栈帧对象链
    • 1.3 栈帧获取
  • 2. 字节码执行

Python虚拟机

注:本篇是根据教程学习记录的笔记,部分内容与教程是相同的,因为转载需要填链接,但是没有,所以填的原创,如果侵权会直接删除。此外,本篇内容大部分都咨询了ChatGPT,为笔者解决了很多问题。

问题:

在Python 程序执行过程与字节码中,我们研究了Python程序的编译过程:通过Python解释器中的编译器对 Python 源码进行编译,最终获得代码对象 PyCodeObject 。编译器根据语法规则对源码进行作用域的划分,并以此为单位来编译源码,最终为每个作用域生成一个代码对象。代码对象则保存了字节码,以及相关名字、常量等静态上下文信息。

(上面这段话是原文章的作者总结的,我个人觉得还是很到位的,大家也可以再回顾一下这篇笔记的内容:Python 程序执行过程与字节码,更深刻体会下。)

那么当我们得到了编译产出的代码对象后,虚拟机是如何解析并执行其中的字节码指令的呢?与语法作用域相对应的运行时名字空间,在虚拟机中又是如何动态维护的呢?

1. 栈帧对象

1.1 PyFrameObject

  • 当 Python 解释器加载一个模块或者执行函数时,会为对应的 PyCodeObject 创建一个 PyFrameObject 对象,并将其压入 Python 解释器的执行栈中。以函数为例,PyFrameObject 对象表示函数调用的栈帧对象,它包含了函数调用时的所有状态信息,包括局部变量、栈、当前指令等信息。

具体地我们来看一下执行上下文的具体结构——PyFrameObject,源码如下:

typedef struct _frame {
    PyObject_VAR_HEAD
    struct _frame *f_back;      /* previous frame, or NULL */
    PyCodeObject *f_code;       /* code segment */
    PyObject *f_builtins;       /* builtin symbol table (PyDictObject) */
    PyObject *f_globals;        /* global symbol table (PyDictObject) */
    PyObject *f_locals;         /* local symbol table (any mapping) */
    PyObject **f_valuestack;    /* points after the last local */
    /* Next free slot in f_valuestack.  Frame creation sets to f_valuestack.
       Frame evaluation usually NULLs it, but a frame that yields sets it
       to the current stack top. */
    PyObject **f_stacktop;
    PyObject *f_trace;          /* Trace function */
    char f_trace_lines;         /* Emit per-line trace events? */
    char f_trace_opcodes;       /* Emit per-opcode trace events? */
    /* Borrowed reference to a generator, or NULL */
    PyObject *f_gen;
    int f_lasti;                /* Last instruction if called */
    /* Call PyFrame_GetLineNumber() instead of reading this field
       directly.  As of 2.3 f_lineno is only valid when tracing is
       active (i.e. when f_trace is set).  At other times we use
       PyCode_Addr2Line to calculate the line from the current
       bytecode index. */
    int f_lineno;               /* Current line number */
    int f_iblock;               /* index in f_blockstack */
    char f_executing;           /* whether the frame is still executing */
    PyTryBlock f_blockstack[CO_MAXBLOCKS]; /* for try and loop blocks */
    PyObject *f_localsplus[1];  /* locals+stack, dynamically sized */
} PyFrameObject;

源码分析(只列出重要字段):

思考:PyFrameObject为什么没有记录闭包信息?

  • f_back:表示当前栈帧的前一个栈帧,即调用当前函数的函数的栈帧。Python解释器使用这个字段来实现函数调用的递归和返回。如果当前函数是最外层函数,即没有调用它的函数,则该字段为NULL。
  • f_code:表示当前栈帧对应的 PyCodeObject 对象,即当前函数的字节码和相关信息。Python 解释器使用这个字段来执行函数中的字节码指令。
  • f_builtins:表示当前栈帧的内建变量字典,即当前函数中访问的所有内建函数和对象的名称和值。Python 解释器使用这个字段来实现对内建函数和对象的访问。
  • f_locals:表示当前栈帧的局部变量字典,即当前函数的所有局部变量的名称和值。Python 解释器使用这个字段来实现变量的读取和写入操作。
  • f_lasti:表示当前栈帧执行的最后一条指令的指令码在字节码序列中的索引。Python 解释器使用这个字段来记录当前函数执行的进度,以便在函数被中断或者函数返回时,能够恢复到正确的执行位置。
  • f_lineno:表示当前栈帧执行的源代码行号。Python 解释器使用这个字段来跟踪当前函数的行号,以便在发生异常时能够提供更准确的错误信息。
  • f_localsplus:表示当前栈帧的栈顶指针,即当前函数调用的栈的顶部。Python 解释器使用这个字段来实现函数调用的参数传递和返回值传递。
  • PyFrameObject 对象本身不记录闭包相关的信息是出于设计上的考虑。一个主要的原因是为了保持执行栈的简洁性和高效性。
  • 闭包是一种在 Python 中广泛使用的编程模式,但是它在实现上是比较复杂的。在解释器执行 Python 代码时,一个函数在定义时可能没有引用外部变量,但是在运行时却可能引用了。因此,如果要记录函数中使用的外部变量,就需要在运行时动态地创建一个闭包对象,并将其与函数对象关联起来。这就会给执行栈的实现带来很大的复杂性。
  • 另一个原因是,闭包可能会被频繁地创建和销毁,而在执行栈中保存大量的闭包信息会导致执行效率变慢,甚至可能引起内存泄漏。因此,Python 解释器在设计执行栈时,选择不记录闭包相关的信息,以保持执行栈的简洁性和高效性。
  • 虽然 PyFrameObject 对象本身不记录闭包相关的信息,但是 Python 解释器可以通过其他方式来获取函数的闭包信息,例如通过函数对象的 closure 属性。

PyFrameObject结构图如下:

  • 其中,f_code字段保存了当前执行的代码对象,最核心的字节码就在代码对象中。而f_lasti字段则保存着上条已执行字节码的编号。虚拟机内部用一个C局部变量next_instr维护下条字节码的位置,并据此加载下一条待执行的字节码指令,原理和CPU的指令指针寄存器(%rip)一样。
  • 另外,注意到f_back字段执行前一个栈帧对象,也就是调用者的栈帧对象。这样一来,栈帧对象按照调用关系串成一个调用链。(这里和x86CPU栈帧布局是如出一辙的,原作者在这里介绍了x86CPU栈帧布局与函数调用之间的关系,笔者能力有限就不介绍了,大家感兴趣的可以自行查找相关资料(主要还是微机原理和汇编学的不是很好。。。))

1.2 栈帧对象链

现在,我们以具体例子来考察Python栈帧对象链以及函数调用之间的关系:

pi = 3.14
def square(r):
    return r ** 2
def circle_area(r):
    return pi * square(r)
def main():
    print(circle_area(5))
if __name__ == '__main__':
    main()

当Python开始执行这个程序时,虚拟机先创建一个栈帧对象,用于执行模块代码对象:

当虚拟机执行到模块代码第13行时,发生了函数调用。这时,虚拟机会新建一个栈帧对象,并开始执行函数main()的代码对象:

随着函数调用逐层深入,当调用square()函数时,调用链达到最长:

当函数调用完毕后,虚拟机通过f_back字段找到前一个栈帧对象并回到调用者代码中继续执行。

1.3 栈帧获取

栈帧对象PyFrameObject中保存着Python运行时信息,在底层执行流控制以及程序调试中非常有用。在Python代码层面,我们可以通过sys模块中的_getframe()函数,即可获得当前栈帧对象:

>>> import sys
>>> frame = sys._getframe()
>>> frame
<frame at 0x00000183FA78F870, file '<pyshell#1>', line 1, code <module>>
>>> dir(frame)
['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'clear', 'f_back', 'f_builtins', 'f_code', 'f_globals', 'f_lasti', 'f_lineno', 'f_locals', 'f_trace', 'f_trace_lines', 'f_trace_opcodes']

拿到栈帧对象之后,我们来具体看一下相关的属性值,以之前的求面积的函数为例:

>>> import sys
>>> pi = 3.14
>>> def square(r):
        frame = sys._getframe()
        while frame:
            print('name:', frame.f_code.co_name)
            print('Locals', list(frame.f_locals.keys()))
            print('Globals', list(frame.f_globals.keys()))
            print('===========')
            frame = frame.f_back
        return r ** 2
>>> def circle_area(r):
        return pi * square(r)
>>> def main():
        print(circle_area(2))
>>> if __name__ == '__main__':
        main()
name: square
Locals ['r', 'frame']
Globals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main']
===========
name: circle_area
Locals ['r']
Globals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main']
===========
name: main
Locals []
Globals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main']
===========
name: <module>
Locals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main']
Globals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main']
===========
12.56

小拓展:自定义函数实现sys._getframe()功能:(这里是原作者举的一个例子,个人感觉对相关知识的理解是有帮助的)

当Python程序抛出异常时,会将执行上下文带出来,保存在异常中:

>>> try:
        1 / 0
    except Exception as e:
        print(e.__traceback__.tb_frame)
<frame at 0x000002440D95BC50, file '<pyshell#5>', line 4, code <module>>

因此,我们可以自定义一个getframe()函数:

>>> def getframe():
        try:
            1 / 0
        except Exception as e:
            return e.__traceback__.tb_frame.f_back

注意:getframe()中通过异常获得的是自己的栈帧对象e.traceback.tb_frame,所以还需要通过f_back字段找到调用者的栈帧。

2. 字节码执行

Python 虚拟机执行代码对象的主要函数有两个:

PyEval_EvalCodeEx() 是通用接口,一般用于函数这样带参数的执行场景:

PyObject *
PyEval_EvalCodeEx(PyObject *_co, PyObject *globals, PyObject *locals,
                  PyObject *const *args, int argcount,
                  PyObject *const *kws, int kwcount,
                  PyObject *const *defs, int defcount,
                  PyObject *kwdefs, PyObject *closure);

PyEval_EvalCode() 是更高层封装,用于模块等无参数的执行场景:

PyObject *
PyEval_EvalCode(PyObject *co, PyObject *globals, PyObject *locals);

这两个函数最终调用 _PyEval_EvalCodeWithName() 函数,初始化栈帧对象并调用 PyEval_EvalFrame 系列函数进行处理。栈帧对象将贯穿代码对象执行的始终,负责维护执行时所需的一切上下文信息。而PyEval_EvalFrame 系列函数最终调用 _PyEval_EvalFrameDefault() 函数,虚拟机执行的核心就在这里(具体源码这里就不讲解了)。

PyObject *
PyEval_EvalFrame(PyFrameObject *f);
PyObject *
PyEval_EvalFrameEx(PyFrameObject *f, int throwflag);
PyObject* _Py_HOT_FUNCTION
_PyEval_EvalFrameDefault(PyFrameObject *f, int throwflag);

文章后续以顺序执行、if判断、while循环详细讲解了字节码的执行过程,这里笔者就不赘述了。

以上就是Python虚拟机栈帧对象及获取源码学习的详细内容,更多关于Python虚拟机栈帧对象获取的资料请关注我们其它相关文章!

(0)

相关推荐

  • 深入理解Python虚拟机中字典(dict)的实现原理及源码剖析

    目录 字典数据结构分析 创建新字典对象 哈希表扩容机制 字典插入数据 总结 字典数据结构分析 /* The ma_values pointer is NULL for a combined table * or points to an array of PyObject* for a split table */ typedef struct { PyObject_HEAD Py_ssize_t ma_used; PyDictKeysObject *ma_keys; PyObject **ma

  • 深入理解Python虚拟机中整型(int)的实现原理及源码剖析

    目录 数据结构 深入分析 PyLongObject 字段的语意 小整数池 整数的加法实现 总结 数据结构 在 cpython 内部的 int 类型的实现数据结构如下所示: typedef struct _longobject PyLongObject; struct _longobject { PyObject_VAR_HEAD digit ob_digit[1]; }; #define PyObject_VAR_HEAD PyVarObject ob_base; typedef struct

  • Python 虚拟机集合set实现原理及源码解析

    目录 深入理解 Python 虚拟机:集合(set)的实现原理及源码剖析 数据结构介绍 创建集合对象 往集合当中加入数据 哈希表数组扩容 从集合当中删除元素 pop 总结 深入理解 Python 虚拟机:集合(set)的实现原理及源码剖析 在本篇文章当中主要给大家介绍在 cpython 虚拟机当中的集合 set 的实现原理(哈希表)以及对应的源代码分析. 数据结构介绍 typedef struct { PyObject_HEAD Py_ssize_t fill; /* Number active

  • 深入理解Python虚拟机中复数(complex)的实现原理及源码剖析

    目录 复数数据结构 复数的操作 复数加法 复数取反 Repr 函数 总结 复数数据结构 在 cpython 当中对于复数的数据结构实现如下所示: typedef struct { double real; double imag; } Py_complex; #define PyObject_HEAD PyObject ob_base; typedef struct { PyObject_HEAD Py_complex cval; } PyComplexObject; typedef struc

  • 深入理解Python虚拟机中元组(tuple)的实现原理及源码

    目录 元组的结构 元组操作函数源码剖析 创建元组 查看元组的长度 元组当中是否包含数据 获取和设置元组中的数据 释放元组内存空间 总结 元组的结构 在这一小节当中主要介绍在 python 当中元组的数据结构: typedef struct { PyObject_VAR_HEAD PyObject *ob_item[1]; /* ob_item contains space for 'ob_size' elements. * Items must normally not be NULL, exc

  • Python虚拟机栈帧对象及获取源码学习

    目录 Python虚拟机 1. 栈帧对象 1.1 PyFrameObject 1.2 栈帧对象链 1.3 栈帧获取 2. 字节码执行 Python虚拟机 注:本篇是根据教程学习记录的笔记,部分内容与教程是相同的,因为转载需要填链接,但是没有,所以填的原创,如果侵权会直接删除.此外,本篇内容大部分都咨询了ChatGPT,为笔者解决了很多问题. 问题: 在Python 程序执行过程与字节码中,我们研究了Python程序的编译过程:通过Python解释器中的编译器对 Python 源码进行编译,最终获

  • Python万物皆对象理解及源码学习

    目录 万物皆对象 1 类型对象和实例对象 2 类型.对象体系 2.1 元类型type 2.2 自定义类型 2.3 自定义类型子类 2.4 type和object的关系 3 可变对象与不可变对象 4 变长对象和定长对象 5 补充 万物皆对象 这篇博客的内容主要是针对Python中万物皆对象的理解,对Python的类型.对象体系做一个整体的梳理. 在Python中,一切皆为对象,一个整数是一个对象,一个字符串也是一个对象,基本类型(如int)也是对象.Python不再区别对待基本类型和对象,所有的基

  • Python中for循环可迭代对象迭代器及生成器源码学习

    目录 问题: 1. 迭代 1.1 可迭代对象Iterable 1.2 迭代器Iterator 1.3 for循环 1.3.1 iter()方法和next()方法 1.3.2 iter()和__iter__() 1.3.3 next()和__next__() 1.3.4 自定义类实现__iter__()和__next__() 1.3.5 探究for循环 2 生成器 2.1 获取生成器 2.2 next(生成器) 2.3 生成器和迭代器 2.4 生成器解析式 问题: 之前在学习list和dict相关

  • Python对象的底层实现源码学习

    目录 1. PyObject:对象的基石 2. PyVarObject:变长对象的基础 2.1 浮点对象 2.2 列表对象 3. PyTypeObject:类型的基石 4. PyType_Type:类型的类型 5. PyBaseObject_Type:类型之基 6. 补充 在“Python源码学习笔记:Python万物皆对象”中,我们对Python的对象类型体系有了一定的认识,这篇博客将从源码层面来介绍Python中万物皆对象的底层实现. 1. PyObject:对象的基石 在Python解释器

  • Python作用域与名字空间源码学习笔记

    目录 作用域与名字空间 1. 名字绑定 1.1 赋值 1.2 模块导入 1.3 函数.类定义 1.4 as关键字 2. 作用域 2.1 静态作用域 2.2 划分作用域 2.3 闭包作用域 2.4 类作用域 2.5 复杂嵌套 2.5.1 函数嵌套类 2.5.2 类嵌套类 3. 名字空间 3.1 Globals 3.2 Locals 3.3 Enclosings 3.4 Builtin 4. 问题与总结 作用域与名字空间 问题: PI = 3.14 def circle_area(r): retur

  • Python内建类型list源码学习

    目录 问题: 1 常用方法 小结: 题外话: 2 list的内部结构:PyListObject 3 尾部操作和头部操作 3.1 尾部操作 3.2 头部操作 4 浅拷贝和深拷贝 4.1 浅拷贝 4.2 深拷贝 4.3 直接赋值 4.4 小结 个人总结: TODO: 5 动态数组 5.1 容量调整 5.2 append() 5.3 insert() 5.4 pop() 5.5 remove() 6 一些问题 问题: “深入认识Python内建类型”这部分的内容会从源码角度为大家介绍Python中各种

  • python目标检测SSD算法预测部分源码详解

    目录 学习前言 什么是SSD算法 ssd_vgg_300主体的源码 学习前言 ……学习了很多有关目标检测的概念呀,咕噜咕噜,可是要怎么才能进行预测呢,我看了好久的SSD源码,将其中的预测部分提取了出来,训练部分我还没看懂 什么是SSD算法 SSD是一种非常优秀的one-stage方法,one-stage算法就是目标检测和分类是同时完成的,其主要思路是均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,然后利用CNN提取特征后直接进行分类与回归,整个过程只需要一步,所以其优势是速度

  • python目标检测SSD算法训练部分源码详解

    目录 学习前言 讲解构架 模型训练的流程 1.设置参数 2.读取数据集 3.建立ssd网络. 4.预处理数据集 5.框的编码 6.计算loss值 7.训练模型并保存 开始训练 学习前言 ……又看了很久的SSD算法,今天讲解一下训练部分的代码.预测部分的代码可以参照https://blog.csdn.net/weixin_44791964/article/details/102496765 讲解构架 本次教程的讲解主要是对训练部分的代码进行讲解,该部分讲解主要是对训练函数的执行过程与执行思路进行详

  • Python内建类型str源码学习

    目录 引言 1 Unicode 2 Python中的Unicode 2.1 Unicode对象的好处 2.2 Python对Unicode的优化 3 Unicode对象的底层结构体 3.1 PyASCIIObject 3.2 PyCompactUnicodeObject 3.3 PyUnicodeObject 3.4 示例 4 interned机制 5 总结 引言 “深入认识Python内建类型”这部分的内容会从源码角度为大家介绍Python中各种常用的内建类型. 在介绍常用类型str之前,在上

  • python实现抠图给证件照换背景源码

    本文实例为大家分享了python实现抠图给证件照换背景的具体代码,供大家参考,具体内容如下 import cv2 import numpy as np import matplotlib.pyplot as plt #建立显示图片的函数 def show(image): plt.imshow(image) plt.axis('off') plt.show() #导入前景图 img=cv2.imread('font.jpg') #图片导入 img = cv2.cvtColor(img,cv2.CO

随机推荐