Python中的Descriptor描述符学习教程

Descriptor是什么?简而言之,Descriptor是用来定制访问类或实例的成员的一种协议。额。。好吧,一句话是说不清楚的。下面先介绍一下Python中成员变量的定义和使用。
我们知道,在Python中定义类成员和C/C++相比得到的结果具有很大的差别。如下面的定义:

 class Cclass
 {
   int I;
   void func();
 };

 Cclass c;

在上面的定义中,C++定义了一个类型,所有该类型的对象都包含有一个成员整数i和函数func;而Python则创建了一个名为Pclass、类型(__class__)为type(详情请参见MetaClass,Python中一切皆为对象,类型也不例外)的对象,然后再创建一个名为p、类型为Pclass的对象。如下所示:

 In [71]: type(pclass)
 Out[71]: <type 'type'>
 In [72]: p = pclass()
 In [73]: type(p)
 Out[73]: <class '__main__.pclass'>

p和Pclass各自包含了一些成员,如下所示:
1 p.__class__ p.__init__ p.__sizeof__
2 p.__delattr__ p.__module__ p.__str__
3 p.__dict__ p.__new__ p.__subclasshook__
4 p.__doc__ p.__reduce__ p.__weakref__
5 p.__format__ p.__reduce_ex__ p.f
6 p.__getattribute__ p.__repr__ p.i
7 p.__hash__ p.__setattr__

其中,带有双下划线的成员为特殊成员,或者可以称之为固定成员(和__slots__定义的成员类似),这些成员变量的值可以被改变,但不能被删除(del)。其中,__class__变量为对象所属的类型,__doc__为对象的文档字符串。有一个特殊成员值得注意:__dict__,该字典中保存了对象的自定义变量。相信大家在初学Python对于其中对象可以任意增加删除成员变量的能力感到惊讶,其实这个功能的玄机就在于__dict__成员中(注意type的__dict__为dictproxy类型):

 In [10]: p.x = 2
 In [11]: p.__dict__
 Out[11]: {'x': 2}

通过上面的演示可以很清楚地看出:Python将对象的自定义成员以键值对的形式保存到__dict__字典中,而前面提到的类型定义只是这种情况的语法糖而已,即上面的类型定义等价于以下形式的定义:

 Class Pclass(object): pass
 Pclass.i = 1
 Pclass.f = lambda x: x

访问成员变量时,Python也是从__dict__字典中取出变量名对应的值,如下形式的两种访问形式是等价的——在Descriptor被引入之前:

 p.i
 p.__dict__['i']

Descriptor的引入即将改变上面的规则,且看下文分解。
定义:Descriptor Protocol
    Descriptor如何改变对象成员的访问规则呢?根据计算机理论中“绝大多数软件问题都可以用增加一个中间层的方式解决”这一名言,我们需要为对象访问提供一个中间层,而非直接访问所需的对象。实现这一中间层的方式是定义Descriptor协议。Descriptor的定义很简单,如果一个类包含以下三个方法(之一),则可以称之为一个Descriptor:

1.object.__get__(self, instance, owner)

成员被访问时调用,instance为成员所属的对象、owner为instance所属的类型

2.object.__set__(self, instance, value)

成员被赋值时调用

3.0object.__delete__(self, instance)

成员被删除时调用

如果我们需要改变一个对象在其它对象中的访问规则,需要将其定义成Descriptor,之后在对该成员进行访问时将调用该Descriptor的相应函数。下面是一个使用Descriptor改变访问规则的例子:

 class MyDescriptor(object):
   def __init__(self, x):
     self.x = x
   def __get__(self, instance, owner):
     print 'get from descriptor'
     return self.x
   def __set__(self, instance, value):
     print 'set from descriptor'
     self.x = value
   def __delete__(self, instance)
     print 'del from descriptor, the val is', self.x

 class C(object):
   d = MyDescriptor('hello')

 >> C.d
 get from descriptor

 >> c = C()
 >> c.d
 get from descriptor

 >> c.d = 1
 set from descriptor

 >> del c.d
 del from descriptor, the val is 1

从例子中可以看出:当我们对对象成员进行引用(Reference)、赋值(Assign)和删除(Dereference)操作时,如果对象成员为一个Descriptor,则这些操作将执行该Descriptor对象的相应成员函数。以上约定即为Descriptor协议。

obj.name背后的魔法
引入了Descriptor之后,Python对于对象成员访问的规则是怎样的呢?在回答这一问题之前,需要对Descriptor进行简单的划分:

Overriding或Data:对象同时提供了__get__和__set__方法

Nonoverriding或Non-Data:对象仅提供了__get__方法

(__del__方法表示自己被忽略了,很伤心~)

下面是从一个类对象中访问其成员(如C.name)的规则:

如果“name”在C.__dict__能找到,C.name将访问C.__dict__['name'],假设为v。如果v是一个Descriptor,则返回type(v).__get__(v, None, C),否则直接返回v;

如果“name”不在C.__dict__中,则向上查找C的父类,根据MRO(Method Resolution Order)对C的父类重复第一步;

还是没有找到“name”,抛出AttributeError异常。

从一个类实例对象中访问其成员(如x.name,type(x)为C)要稍微复杂一些:

如果“name”能在C(或C的父类)中找到,且其值v为一个Overriding Descriptor,则返回type(v).__get__(v, x, C)的值;

否则,如果“name”能在x.__dict__中找到,则返回x.__dict__['name']的值;

如果“name”仍未找到,则执行类对象成员的查找规则;

如果C定义了__getattr__函数,则调用该函数;否则抛出AttributeError异常。

成员赋值的查找规则与访问规则类似,但还是有一点区别:对类成员执行赋值操作时将直接设置C.__dict__中的值,而不会调用Descriptor的__set__函数。

以上面的代码为例,当访问C.d时,Python将在C.__dict__中找到d,并且发现d是一个Descriptor,因此将调用d.__get__(None, C);当访问c.d时,Python首先查找C,并且在其中发现d的定义,且d为一个Overriding Descriptor,因此执行d.__get__(c, C)。

前面介绍了Descriptor的一些细节,那么Descriptor的作用是什么呢?在Python中,Descriptor主要用来实现一些Python本身的功能,如类方法调用、staticmethod和Property等。下面将对这些使用Descriptor进行类方法调用的实现进行介绍。

Bound & Unbound Method
在python中,函数是第一级的对象,即其本质与其它对象相同,差别在于函数对象是callable对象,即对于函数对象f,可以用语法f()来调用函数。上面提到的对象成员访问规则,对于函数来说是完全一样的。Python在实现成员函数调用时obj.f()时,会执行一下两个步骤:

根据对象成员访问规则获取函数对象;

用函数对象执行函数调用;

为了验证上述过程,我们可以执行以下代码:

Class C(object):
   def f(self):
     pass
 >> fun = C.f
 Unbound Method
 >> fun()
 >> c = C()
 >> fun = c.f
 Bound Method
 >> fun()

我们可以看到C.f和c.f返回了instancemethod类型的对象,这两个对象也是可调用的,但是却不是我们本以为的func对象。那么instancemethod对象和func对象之间具有什么关联呢?

func类型:func类型为Python中原始的函数对象类型,即def f(): pass将定义一个func类型的对象f;

instancemethod:func的一个wrapper,如果类方法没有绑定到对象,则该instancemethod为一个Unbound Method,对Unbound Method的调用将导致TypeError错误;如果类方法绑定到了对象,则该instancemethod为一个Bound Method,对Bound Method的调用不许要指定self参数的值。

如果查看Unbound Method对象和Bound Method对象的成员,我们可以发现它们都包含了一下三个成员:im_func、im_self和im_class。其中im_func为所封装的func对象,im_self则为所绑定对象的值,而im_class则为定义该函数的类对象。由此我们可以知道,Python会根据不同的情况返回函数的不同wrapper,当通过类对象访问函数时,返回的是名为Unbound Method对象的Wrapper,而通过类实例访问函数是,返回的则是绑定了该实例的名为Bound Method对象的Wrapper。

现在是Descriptor大显身手的时候了。

Python中将func定义为一个Overriding Descriptor,在其__get__方法中构造一个instancemethod对象,并根据被访问函数被访问的情况设置im_func、im_self和im_class成员。在instancemethod实例被调用时,则根据im_func和im_self来完成真正的函数调用。演示这一过程的代码如下:

 Class instancemethod(object):
   def __call__(self, *args):
     if self.im_self == None:
     raise 'unbound error'
     return self.im_func(self.im_self, *args)
   def __init__(self, im_self, im_func, im_class):
     self.im_self = im_self
     self.im_func = im_func
     self.im_class = im_class

 class func(object):
   ...
   def __get__(self, instance, owner):
     return instancemethod(instance, self, owner)
   def __set__(self, instance, value):
     pass
   ...

一个小问题的解决
分享一下刚遇到的一个小问题,我有一段类似于这样的python代码:

# coding: utf-8

class A(object):

  @property
  def _value(self):
#    raise AttributeError("test")
    return {"v": "This is a test."}

  def __getattr__(self, key):
    print "__getattr__:", key
    return self._value[key]

if __name__ == '__main__':
  a = A()
  print a.v

运行后可以得到正确的结果

__getattr__: v
This is a test.

但是注意,如果把

#    raise AttributeError("test")

这行的注释去掉的话,即在_value方法里面抛出AttributeError异常,事情就会变得有些奇怪。程序运行的时候并不会抛出异常,而是会进入一个无限递归:

File "attr_test.py", line 12, in __getattr__
  return self._value[key]
 File "attr_test.py", line 12, in __getattr__
  return self._value[key]
RuntimeError: maximum recursion depth exceeded while calling a Python object

通过多方查找后发现是property装饰器的问题,property实际上是一个descriptor。在python doc中可以发现这样的文字:

object.__get__(self, instance, owner)

Called to get the attribute of the owner class (class attribute access) or of an instance of that class (instance attribute access). owner is always the owner class, while instance is the instance that the attribute was accessed through, or None when the attribute is accessed through the owner. This method should return the (computed) attribute value or raise an AttributeError exception.

这样当用户访问._value时,抛出了AttributeError从而调用了__getattr__方法去尝试获取。这样程序就变成了无限递归。

这个问题看上去不复杂,但是当你的_value方法是比较隐晦的抛出AttributeError的话,调试起来就会比较困难了。

小结
Descriptor是访问对象成员时的一个中间层,为我们提供了自定义对象成员访问的方式。通过对Descriptor的探索,对原来的一些看似神秘的概念顿时有种豁然开朗的感觉:

类方法调用:编译器并没有为其提供专门的语法规则,而是使用Descriptor返回instancemethod来封装func,从而实现类似obj.func()的调用方式;

staticmethod:decorator将创建一个StaticMethod并在其中保存func对象,StaticMethod是一个Descriptor,其__get__函数中返回前面所保存的func对象;

Property:创建一个Property对象,在其__get__、__set__和__delete__方法中分别执行构造对象是传入的fget、fset、和fdel函数。现在知道为什么Property只提供这三个函数作为参数么。。

最后一个问题是,Python引入Descriptor之后的性能会不会有影响?性能影响是必须的:每次访问成员时的查找规则,之后再调用Descriptor的__get__函数,如果是方法调用的话之后才是执行真正的函数调用。每次访问对象成员时都要经历以上过程,对Python的性能应该会有较大的影响。但是,在Python的世界,貌似Pythonic才是被关注的重点,性能神马的就别提了。。

(0)

相关推荐

  • Python中属性和描述符的正确使用

    关于@property装饰器 在Python中我们使用@property装饰器来把对函数的调用伪装成对属性的访问. 那么为什么要这样做呢?因为@property让我们将自定义的代码同变量的访问/设定联系在了一起,同时为你的类保持一个简单的访问属性的接口. 举个栗子,假如我们有一个需要表示电影的类: class Movie(object): def __init__(self, title, description, score, ticket): self.title = title self.

  • 详解Python中的Descriptor描述符类

    描述符是调和属性访问的一个类.描述符类可用来获取.设置或删除属性值.描述符对象是在类定义的时候构建在一个类中的. 一般来说,描述符是一个具有绑定行为的对象属性,其属性的访问被描述符协议方法覆写.这些方法是__get__(). __set__()和__delete__(),一个对象中只要包含了这三个方法(译者注:包含至少一个),就称它为描述符. 属性访问的默认行为是从一个对象的字典中获取 (get).设置 (set).删除 (delete) 属性.例如:a.x 的查找链始于 a.__dict__[

  • Python深入学习之对象的属性

    Python一切皆对象(object),每个对象都可能有多个属性(attribute).Python的属性有一套统一的管理方案. 属性的__dict__系统 对象的属性可能来自于其类定义,叫做类属性(class attribute).类属性可能来自类定义自身,也可能根据类定义继承来的.一个对象的属性还可能是该对象实例定义的,叫做对象属性(object attribute). 对象的属性储存在对象的__dict__属性中.__dict__为一个词典,键为属性名,对应的值为属性本身.我们看下面的类和

  • Python 的描述符 descriptor详解

    Python 在 2.2 版本中引入了descriptor(描述符)功能,也正是基于这个功能实现了新式类(new-styel class)的对象模型,同时解决了之前版本中经典类 (classic class) 系统中出现的多重继承中的 MRO(Method Resolution Order) 问题,另外还引入了一些新的概念,比如 classmethod, staticmethod, super, Property 等.因此理解 descriptor 有助于更好地了解 Python 的运行机制.

  • 实例讲解Python中的私有属性

    在Python中可以通过在属性变量名前加上双下划线定义属性为私有属性,如例子: 复制代码 代码如下: #! encoding=UTF-8   class A:     def __init__(self):                  # 定义私有属性         self.__name = "wangwu"                  # 普通属性定义         self.age = 19          a = A()   # 正常输出 print a.ag

  • Python中的类与对象之描述符详解

    描述符(Descriptors)是Python语言中一个深奥但却重要的一部分.它们广泛应用于Python语言的内核,熟练掌握描述符将会为Python程序员的工具箱添加一个额外的技巧.为了给接下来对描述符的讨论做一些铺垫,我将描述一些程序员可能会在日常编程活动中遇到的场景,然后我将解释描述符是什么,以及它们如何为这些场景提供优雅的解决方案.在这篇总结中,我会使用新样式类来指代Python版本. 1.假设一个程序中,我们需要对一个对象属性执行严格的类型检查.然而,Python是一种动态语言,所以并不

  • 解密Python中的描述符(descriptor)

    Python中包含了许多内建的语言特性,它们使得代码简洁且易于理解.这些特性包括列表/集合/字典推导式,属性(property).以及装饰器(decorator).对于大部分特性来说,这些"中级"的语言特性有着完善的文档,并且易于学习. 但是这里有个例外,那就是描述符.至少对于我来说,描述符是Python语言核心中困扰我时间最长的一个特性.这里有几点原因如下: 1.有关描述符的官方文档相当难懂,而且没有包含优秀的示例告诉你为什么需要编写描述符(我得为Raymond Hettinger辩

  • Python黑魔法Descriptor描述符的实例解析

    在Python中,访问一个属性的优先级顺序按照如下顺序: 1:类属性 2:数据描述符 3:实例属性 4:非数据描述符 5:__getattr__()方法  这个方法的完整定义如下所示: def __getattr(self,attr) :#attr是self的一个属性名 pass; 先来阐述下什么叫数据描述符. 数据描述符是指实现了__get__,__set__,__del__方法的类属性(由于Python中,一切皆是对象,所以你不妨把所有的属性也看成是对象) PS:个人觉得这里最好把数据描述符

  • python 基础学习第二弹 类属性和实例属性

    复制代码 代码如下: #!/usr/bin/env python class Foo(object): x=1 if __name__=='__main__': foo = Foo() print 'foo.x=',foo.x print 'Foo.x=',Foo.x foo.x = 2 print 'foo.x=',foo.x print 'Foo.x=',Foo.x

  • python的描述符(descriptor)、装饰器(property)造成的一个无限递归问题分享

    分享一下刚遇到的一个小问题,我有一段类似于这样的python代码: 复制代码 代码如下: # coding: utf-8 class A(object): @property     def _value(self): #        raise AttributeError("test")         return {"v": "This is a test."} def __getattr__(self, key):         p

随机推荐