Python官方文档:Descriptor 指南

摘要

定义Descriptor并概述其协议,以及展示如何调用Descriptor。深入学习自定义Descriptor和几个内置的Python Descriptor,包括函数、property、静态方法和类方法。通过纯Python代码等价实现和应用示例来揭示其运行原理。

学习Descriptor不仅可以获得更多的工具集,而且可以更好地体会Python的运行原理及其优雅的设计。

定义和介绍

一般来说,Descriptor是伴随有“绑定行为”的对象属性,其属性访问可以根据Descriptor协议通过方法来控制。方法有__get__()、__set__()和__delete__()。如果在对象中定义了其中任意方法,那么这个对象就称为Descriptor。

对象中属性访问的默认行为就是在对象的字典中get、set或delete相应的属性。例如,a.x的查找顺序是从 a.__dict__[‘x’] 到 type(a).__dict__[‘x’],然后继续在type(a)除元类(metaclass)外的基类中查找。如果要查找的值是定义了任意Descriptor方法的对象,那么Python会调用Descriptor方法来覆盖默认行为。查找的优先级顺序取决于定义了哪些Descriptor方法。

Descriptor是一个强大而通用的协议,是property、方法、静态方法、类方法和super()背后的机制。在Python的内部使用Descriptor来实现了2.2版本中引入的新风格类。Descriptor抽象了底层的c代码,为Python日常编码提供了一个灵活的新工具集。

Descriptor协议

这就是协议的全部。对象只要定义其中任意方法就是Descriptor,就可以覆盖属性查找的默认行为。

同时定义了__get__()和__set__()的对象就叫作Data Descriptor。而只定义了__get__()的Descriptor就被叫做Non-data Descriptor(这种方式就是类方法的典型用法,当然也可能有其他用法)。

Data Descriptor和Non-data Descriptor的不同体现在关于实例字典条目的覆盖和计算顺序上。如果实例字典中包含了与Data Descriptor同名的属性,那么Data Descriptor优先。如果实例字典中包含了与Non-data Descriptor同名的属性,实例字典优先。

(译注:实例字典是指类实例中__dict__。关于优先级的代码示例参考:https://gist.github.com/icejoywoo/0f19fa8575ac664140fc)

同时定义__get__()和__set__()方法,并且__set__()在调用时抛出AttributeError异常,就可以创建一个只读的Data Descriptor。只需要定义一个抛出异常的__set__()方法就足以让该对象成为Data Descriptor。

调用Descriptor

Descriptor可以直接通过方法名来进行调用。例如,d.__get__(obj)。

另外,更常用的方式是通过属性访问来自动地调用Descriptor。例如,obj.d在obj的对象字典中查找d。如果d定义了__get__()方法,那么根据下面列出的优先级规则,就会优先调用d.__get__(obj)。

调用的细节取决于obj是对象还是类。

对于对象来说,其机制是object.__getattribute__()将b.x转换为type(b).__dict__[‘x’].__get__(b, type(b))。其实现的优先级链是:Data Descriptor优先级高于实例变量(instance variables),实例变量优先级高于Non-data Descriptor,而 __getattr__() 的优先级是最低的。完整的c代码实现在Objects/object.c的PyObject_GenericGetAttr()函数中。

对于类来说,其机制是type.__getattribute__()将B.x转换为B.__dict__[‘x’].__get__(None, B)。纯Python的代码实现如下:

需要记住的重要几点:

  • Descriptor是通过__getattribute__()方法来调用的
  • 覆写__getattribute__()可以阻止Descriptor的自动调用
  • object.__getattribute__()和type.__getattribute__()调用__get__()的方式不同
  • Data Descriptor总是覆盖实例字典
  • Non-data Descriptor可能会被实例字典覆盖

super()返回的对象也有一个用于调用Descriptor的定制__getattribute__()方法。super(B, obj).m()会搜查obj.__class__.__mro__中的基类A,返回A.__dict__[‘m’].__get__(obj, B)。如果不是Descriptor,m返回也是一样的。如果m不在实例字典中,就还原为通过object.__getattribute__()来搜索。

实现细节在Object/typeobject.c的super_getattro()函数中。Guido的入门教程有纯Python的等价实现。

上面描述了在object、type和super()中隐藏在__getattribute__()方法内部的Descriptor机制。这种机制是可继承的。如果一个类派生自某个对象,或者这个类的元类实现了相似的机制,这个类就可以继承该机制。同样地,类可以通过覆写__getattribute__()来屏蔽Descriptor。

Descriptor示例

下面的代码创建了一个Data Descriptor的类,会在get或set时打印一条信息。覆写__getattribute__()也可以为每个属性加上打印信息。然而,在监控几个选定的属性时Descriptor是很用的:

Descriptor协议简单并且提供了令人兴奋的可能性。这几种使用场景是非常普遍的,所以都打包成了单独的函数调用。Property,绑定和未绑定的方法,静态方法和类方法都是基于Descriptor协议的。

属性

调用property()是一种简洁的创建Data Descriptor的方式,会在访问属性时触发函数调用。函数签名如下:

文档展示了托管属性x的典型用法:

来看下property()是如何使用Descriptor协议来实现的,下面是纯Python的等价实现:

每当用户接口授权属性访问并且后续变化需要方法的接入,property()内置函数都是有用的。

例如,电子表格类可以授权通过Cell(‘b10’).value访问单元格的值。对程序的后续变化需要单元格在每次访问时重新计算;然而,程序员不希望影响现有直接访问属性的客户端代码。解决方案就是用Property Data Descriptor来封装对值属性的访问:

函数和方法

Python的面向对象特性是建立在以函数为基础的环境之上的。使用Non-data Descriptor,函数和方法可以无缝地融合起来。

Class字典将方法存储为函数。在Class的定义中,方法和函数同样都用def和lambda来定义。方法与函数唯一的不同是其第一个参数预留给对象实例(object instance)的。按照Python的惯例,这个实例引用被称为self,在其他语言中可能是this或其他名字。

为了支持方法调用,函数有__get__()方法,可以在属性访问时绑定方法。这意味着所有的函数都是Non-data Descriptor,根据调用方是对象或类来返回绑定或非绑定方法。纯Python实现如下:

在解释器中展示函数Descriptor实际是如何工作的:

上面的输出信息表示绑定和非绑定方法是两种不同的类型。尽管我们可以用上述方式实现,但是在Objects/classobject.c 中的 PyMethod_Type 其实是用一个对象实现的,只是这个对象存在两种不同的表现形式,而表现形式则取决于 im_self 的值是否为空(在 C 语言中表示 None 的关键字为 NULL)。

同样地,方法对象调用的效果依赖于im_self字段。如果赋值(意味着绑定),原函数(保存在im_func字段中)在调用时会设置第一个参数为实例。如果非绑定,所有的参数保持不变传入原函数中。instancemethod_call()的C实现因为包含一些类型检查而变得稍稍复杂了一点。

静态方法和类方法

Non-data descriptor为函数绑定到方法的常用模式中提供了一个简单的变化机制。

总的来说,函数有__get__()方法,因此在当作属性访问时会转换为方法。Non-data Descriptor将obj.f(*args)变成f(obj, *args),将klass.f(*args)变成f(*args)。

下表总结了绑定和它的两个最有用的变种:

Transformation Called from an Object Called from a Class
function f(obj, *args) f(*args)
staticmethod f(*args) f(*args)
classmethod f(type(obj), *args) f(klass, *args)

静态方法返回没有任何变化的原函数。调用c.f或C.f相当于直接查找object.__getattribute__(c, “f”)或object.__getattribute__(C, “f”)。因此,函数通过对象或类来调用是等价的。

静态方法是没有引用self变量的方法。

例如,统计学的package可以包含存放实验数据的容器类。这个类提供了标准的方法,计算平均值、均值、中值和其他依赖数据的描述性统计。然而,可能有只是概念相关但不依赖数据的函数。例如,erf(x)是在统计工作中方便的转换程序,但是不直接依赖特定的数据集。可以通过对象或类来调用:s.erf(1.5) –> .9332或Sample.erf(1.5) –> .9332。

因为静态方法返回没有变化的原函数,所以示例调用就没有特别之处:

使用Non-data Descriptor协议,staticmethod()的纯Python版本如下:

不同于静态方法,类方法在调用函数之前在参数列表的前面加了类引用。无论其调用者是对象还是类结果是一致的:

当函数仅需要类引用并且不关心任何内部数据时,类方法是非常有用的。类方法的一个用途就是代替类构造函数来创建对象。在Python 2.3中,类方法dict.fromkeys()通过键值列表来创建新字典。等价的纯Python实现如下:

现在,独立键名的新字典会像下面这样来构建:

使用Non-data Descriptor协议,classmethod()的纯Python版本如下:

1 3 收藏 评论

关于作者:武佳斌

Python Programmer 个人主页 · 我的文章 · 10 ·      

相关文章

可能感兴趣的话题



直接登录
跳到底部
返回顶部