在Python中调用外部命令的那些事 - Python

你有没有遇到过这样的场景：Python代码需要执行一些外部命令，比如运行脚本、调用系统工具，或者处理一些非Python的任务？今天聊聊那些你可能不知道的细节。

调用外部命令是Python中一个很常见的需求。你可能需要运行一个shell命令，或者调用一个外部程序来完成特定的任务。比如，你想要清理某些文件，或者运行一个预训练的机器学习模型，或者从命令行获取一些数据。

在Python中，最常用的方式就是使用subprocess模块。这个模块允许你像在终端中输入命令一样，从Python代码中调用外部命令。不过，很多人在使用它的时候，可能会遇到一些问题，比如命令执行失败、输出无法捕获、或者权限不够。

让我们从最基本的开始。在Python中，你可以用subprocess.run()来执行命令。比如：

import subprocess
result = subprocess.run(["ls", "-l"], capture_output=True, text=True)
print(result.stdout)

这段代码会执行ls -l命令，并将输出捕获到result.stdout中。注意，capture_output和text这两个参数，它们让输出变得容易处理。

但有时候，你可能需要更细粒度的控制。比如，你希望获取命令的返回码，或者将命令的输出实时显示，而不是等到命令执行完毕。这时候，subprocess的其他方法比如subprocess.Popen或者subprocess.check_output就派上用场了。

另一个问题是，如何处理复杂的命令，比如带有参数、重定向、管道的命令？比如，你想要运行一个命令，然后将它的输出传递给另一个命令，这时候你可以使用subprocess.PIPE来连接输入输出：

import subprocess
process = subprocess.Popen(["grep", "error", "log.txt"], stdout=subprocess.PIPE)
output, error = process.communicate()
print(output)

这里，Popen会启动一个进程，然后communicate()会等待它结束并获取输出。这种方式更适用于需要多步处理的情况。

不过，subprocess的使用可能有些繁琐。有没有更简洁的方式？当然有，比如使用shlex模块来处理带有空格的命令字符串，或者使用which命令来查找某个可执行文件的路径。比如：

import shlex
import subprocess
command = "echo 'Hello World'"
args = shlex.split(command)
result = subprocess.run(args, capture_output=True, text=True)
print(result.stdout)

这里，shlex.split()将命令字符串拆分成列表，这样就可以直接传递给subprocess.run()。

还有一个容易被忽视的点是：命令的环境变量。有时候，你在本地运行一个命令，它依赖某些环境变量，但是在Python中调用的时候可能这些变量不存在。这时候，你可能需要显式地设置环境变量：

import os
import subprocess
os.environ["MY_VAR"] = "my_value"
result = subprocess.run(["my_script.sh"], env=os.environ, capture_output=True, text=True)
print(result.stdout)

通过设置env参数，你可以确保外部命令在正确的环境中运行。

再来说说异常处理。调用外部命令时，可能会出现各种错误，比如命令不存在、权限不足、输入输出错误等。使用try-except块可以帮你捕获这些错误，并作出相应的处理：

import subprocess
try:
    result = subprocess.run(["nonexistent_command"], check=True, capture_output=True, text=True)
except subprocess.CalledProcessError as e:
    print("命令执行失败:", e)

check=True会让run()在命令返回非零状态码时抛出异常，这样你就能在except块中处理错误。

顺便提一句，如果你在使用subprocess时遇到性能问题，可以考虑使用subprocess.run()的shell=True参数，不过这个参数需要谨慎使用。因为它会将命令字符串直接交给shell解析，这可能会带来安全风险，比如命令注入。

还有一个我经常用到的小技巧，就是使用subprocess的check_output方法获取命令的输出，这在你需要将命令的输出作为字符串处理的时候特别方便：

import subprocess
output = subprocess.check_output(["ls", "-l"], text=True)
print(output)

不过，如果你需要处理更复杂的命令，或者希望在运行时动态构建命令字符串，那就得小心了。

现在，我们来看看实际应用中的场景。比如，你正在开发一个数据处理脚本，其中需要调用一些外部工具，比如ffmpeg来处理视频，或者curl来获取数据。这些工具在Python中调用时，如果处理得当，可以极大提升你的工作效率。

但如果你只是想执行一个简单的命令，比如echo或者date，那subprocess.run()已经足够用了。

有没有更高级的方式？当然，比如使用asyncio和subprocess结合，实现异步调用外部命令，这样可以在处理多个任务的时候提升性能：

import asyncio
import subprocess

async def run_command(command):
    process = await asyncio.create_subprocess_exec(
        *command,
        stdout=asyncio.subprocess.PIPE,
        stderr=asyncio.subprocess.PIPE
    )
    stdout, stderr = await process.communicate()
    return stdout, stderr

async def main():
    stdout, stderr = await run_command(["ls", "-l"])
    print("stdout:", stdout)
    print("stderr:", stderr)

asyncio.run(main())

这种方式适合在高并发或者长时间运行的任务中使用。

总的来说，调用外部命令是Python中一个非常实用的功能，但同时也是容易出错的地方。你需要根据具体场景选择合适的函数和参数，同时也要注意安全和性能问题。

最后，我有个问题：你有没有遇到过因为调用外部命令不规范而导致的bug？ 欢迎在评论区分享你的经历。

subprocess, shell命令, 环境变量, 异步调用, 外部工具, 命令注入, 参数处理, 代码风格, 脚本执行, 安全问题