Python 程序员最常犯的十个错误 - linux编程基础

在Python中，我们可以为函数的某个参数设置默认值，使该参数成为可选参数。虽然这是一个很好的语言特性，但是当默认值是可变类型时，也会导致一些令人困惑的情况。我们来看看下面这个Python函数定义：

Python程序员常犯的一个错误，就是想当然地认为：在每次调用函数时，如果没有为可选参数传入值，那么这个可选参数就会被设置为指定的默认值。在上面的代码中，你们可能觉得重复调用foo()函数应该会一直返回'baz'，因为你们默认每次foo()函数执行时（没有指定bar变量的值），bar变量都被设置为[]（也就是，一个新的空列表）。

但是，实际运行结果却是这样的：

很奇怪吧？为什么每次调用foo()函数时，都会把"baz"这个默认值添加到已有的列表中，而不是重新创建一个新的空列表呢？

答案就是，可选参数默认值的设置在Python中只会被执行一次，也就是定义该函数的时候。因此，只有当foo()函数被定义时，bar参数才会被初始化为默认值（也就是，一个空列表），但是之后每次foo()函数被调用时，都会继续使用bar参数原先初始化生成的那个列表。

当然，一个常见的解决办法就是：

我们来看下面这个例子：

这个结果很正常。

嗯，结果和预计的一样。

在Python语言中，类变量是以字典的形式进行处理的，并且遵循方法解析顺序（Method Resolution Order，MRO）。因此，在上面的代码中，由于类C中并没有x这个属性，解释器将会查找它的基类（base class，尽管Python支持多重继承，但是在这个例子中，C的基类只有A）。换句话说，C并不没有独立于A、真正属于自己的x属性。所以，引用C.x实际上就是引用了A.x。如果没有处理好这里的关系，就会导致示例中出现的这个问题。

请看下面这段代码：

这段代码的问题在于，except语句并不支持以这种方式指定异常。在Python 2.x中，需要使用变量e将异常绑定至可选的第二个参数中，才能进一步查看异常的情况。因此，在上述代码中，except语句并没有捕获IndexError异常；而是将出现的异常绑定到了一个名为IndexError的参数中。

要想在except语句中正确地捕获多个异常，则应将第一个参数指定为元组，然后在元组中写下希望捕获的异常类型。另外，为了提高可移植性，请使用as关键词，Python 2和Python 3均支持这种用法。

Python中的变量名解析遵循所谓的LEGB原则，也就是“L：本地作用域；E：上一层结构中def或lambda的本地作用域；G：全局作用域；B：内置作用域”（Local，Enclosing，Global，Builtin），按顺序查找。看上去是不是很简单？不过，事实上这个原则的生效方式还是有着一些特殊之处。说到这点，我们就不得不提下面这个常见的Python编程错误。请看下面的代码：

出了什么问题？

上述错误的出现，是因为当你在某个作用域内为变量赋值时，该变量被Python解释器自动视作该作用域的本地变量，并会取代任何上一层作用域中相同名称的变量。

正是因为这样，才会出现一开始好好的代码，在某个函数内部添加了一个赋值语句之后却出现了UnboundLocalError，难怪会让许多人吃惊。

在使用列表时，Python程序员尤其容易陷入这个圈套。

请看下面这个代码示例：

呃？为什么函数foo1运行正常，foo2却出现了错误？

答案与上一个示例相同，但是却更难捉摸清楚。foo1函数并没有为lst变量进行赋值，但是foo2却有赋值。我们知道，lst += [5]只是lst = lst + [5]的简写，从中我们就可以看出，foo2函数在尝试为lst赋值（因此，被Python解释器认为是函数本地作用域的变量）。但是，我们希望为lst赋的值却又是基于lst变量本身（这时，也被认为是函数本地作用域内的变量），也就是说该变量还没有被定义。这才出现了错误。

下面这段代码的问题应该算是十分明显：

在遍历列表或数组的同时从中删除元素，是任何经验丰富的Python开发人员都会注意的问题。但是尽管上面的示例十分明显，资深开发人员在编写更为复杂代码的时候，也很可能会无意之下犯同样的错误。

幸运的是，Python语言融合了许多优雅的编程范式，如果使用得当，可以极大地简化代码。简化代码还有一个好处，就是不容易出现在遍历列表时删除元素这个错误。能够做到这点的一个编程范式就是列表解析式。而且，列表解析式在避免这个问题方面尤其有用，下面用列表解析式重新实现上面代码的功能：

请看下面这段代码：

你可能觉得输出结果应该是这样的：

但是，实际的输出结果却是：

吓了一跳吧！

这个结果的出现，主要是因为Python中的迟绑定（late binding ）机制，即闭包中变量的值只有在内部函数被调用时才会进行查询。因此，在上面的代码中，每次create_multipliers()所返回的函数被调用时，都会在附近的作用域中查询变量i的值（而到那时，循环已经结束，所以变量i最后被赋予的值为4）。

要解决这个常见Python问题的方法中，需要使用一些hack技巧：

请注意！我们在这里利用了默认参数来实现这个lambda匿名函数。有人可能认为这样做很优雅，有人会觉得很巧妙，还有人会嗤之以鼻。但是，如果你是一名Python程序员，不管怎样你都应该要了解这种解决方法。

假设你有两个文件，分别是a.py和b.py，二者相互引用，如下所示：

a.py文件中的代码:

b.py文件中的代码：

首先，我们尝试导入a.py模块：

代码运行正常。也许这出乎了你的意料。毕竟，我们这里存在循环引用这个问题，想必应该是会出现问题的，难道不是吗？

答案是，仅仅存在循环引用的情况本身并不会导致问题。如果一个模块已经被引用了，Python可以做到不再次进行引用。但是如果每个模块试图访问其他模块定义的函数或变量的时机不对，那么你就很可能陷入困境。

那么回到我们的示例，当我们导入a.py模块时，它在引用b.py模块时是不会出现问题的，因为b.py模块在被引用时，并不需要访问在a.py模块中定义的任何变量或函数。b.py模块中对a模块唯一的引用，就是调用了a模块的foo()函数。但是那个函数调用发生在g()函数当中，而a.py或b.py模块中都没有调用g()函数。所以，不会出现问题。

但是，如果我们试着导入b.py模块呢（即之前没有引用a.py模块的前提下）：

糟糕。情况不太妙！这里的问题是，在导入b.py的过程中，它试图引用a.py模块，而a.py模块接着又要调用foo()函数，这个foo()函数接着又试图去访问b.x变量。但是这个时候，b.x变量还没有被定义，所以才出现了AttributeError异常。

解决这个问题有一种非常简单的方法，就是简单地修改下b.py模块，在g()函数内部才引用a.py：

现在我们再导入b.py模块的话，就不会出现任何问题了：

Python语言的一大优势，就是其本身自带的强大标准库。但是，正因为如此，如果你不去刻意注意的话，你也是有可能为自己的模块取一个和Python自带标准库模块相同的名字（例如，如果你的代码中有一个模块叫email.py，那么这就会与Python标准库中同名的模块相冲突。）

这很可能会给你带来难缠的问题。举个例子，在导入模块A的时候，假如该模块A试图引用Py

Python 程序员最常犯的十个错误(一)