python包都安装到哪里去了?
终结一切找不到包、可执行文件的问题
背景
经常在python社区看到的高频问题:
- 我安装了pip为什么找不到可执行文件
import module
为什么报ModuleNotFound
?- 为什么我用 Pycharm 能运行在cmd里运行不了?
Python是如何寻找包的
现在大家的电脑上很可能不只有一个Python
,还有更多的虚拟环境,导致安装包的时候,一不小心你就忘记注意安装包的路径了。
首先我们来解决找包的问题,这个问题回答起来很简单,但很多人不知道这个原理。
假如你的Python
解释器的路径是$path_prefix/bin/python
,那么你启动Python
交互环境或者用这个解释器运行脚本时,会默认寻找以下位置:
$path_prefix/lib
(标准库路径)$path_prefix/lib/pythonX.Y/site-packages
(三方库路径, X.Y是对应Python
的主次版本号,如3.8
,2.7
)- 当前工作目录(
pwd
命令返回的结果)
这里如果你用的是Linux
上默认的Python
,$path_prefix
就是/usr
,如果你是自己使用默认选项编译的,$path_prefix
就是/usr/local
。从上面第二条可以看到不同的Python
版本的第三方库路径不同,如果你把Python
从3.6
升级到3.8
那么之前装的三方库都没法用了。当然你可以整个文件夹都拷贝过去,大部分情况不会出问题。
几个有用的函数
sys.executable
: 当前使用的Python
解释器路径sys.path
: 当前包的搜索路径列表sys.prefix
: 当前使用的$path_prefix
- 除此之外,还可以在命令行中运行
python -m site
,会打印出当前的Python
的一些信息,包括搜索路径列表。
例:
|
|
使用环境变量添加搜索路径
如果你的包的路径不存在上面列出的搜索路径列表里,可以把路径加到PYTHONPATH
环境变量里,多个路径用:
隔开(Windows用;
)。
但需注意,避免把不同Python
版本包的路径加到PYTHONPATH
里,比如PYTHONPATH=/home/admin/.local/lib/python2.7/site-packages
,因为PYTHONPATH
中的路径是优先于默认搜索路径,如果用Python3
的话会有兼容性问题。事实上PYTHONPATH
里最好不要出现任何带site-packages
的路径。
简单附一个PYTHONPATH
实际案例,django项目经常有人自定义一个apps
目录用来放所有项目,一般都是将路径放到sys.path
里。这里可以设置环境变量PYTHONPATH
来解决这个问题,代码如下
|
|
顺便说下PATH
是用来找可执行程序的搜索路径,假如你在终端运行命令my_cmd
,系统会依次扫描PATH
中的路径,看my_cmd
是否在于该路径下,所以如果是提示找不到程序或命令无法识别,那你就要看路径是否加到PATH
里了。
Python 是如何安装包的
现在用安装Python
包基本是用的pip
,就算你是用pipenv
,poetry
,底层依然是pip
,一律适用。如果你没有安装pip
,请参考pip 安装,如果安装了还无法使用pip
命令请看上一节。
运行pip
有两种方式:
pip ...
python -m pip ...
第一种方式和第二种方式大同小异,区别是第一种方式使用的 Python 解释器是写在 pip 文件的 shebang 里的,一般情况下,如果你的 pip 路径是$path_prefix/bin/pip
,那么 Python
路径对应的就是 $path_prefix/bin/python
。如果你用的是 Unix
系统则 cat $(which pip)
第一行就包含了 Python
解释器的路径。第二种方式则显式地指定了 Python
的位置。这条规则,对于所有 Python
的可执行程序都是适用的。流程如下图所示。
那么,不加任何自定义配置时,使用 pip 安装包就会自动安装到 $path_prefix/lib/pythonX.Y/site-packages
下($path_prefix
是从上一段里得到的),可执行程序安装到 $path_prefix/bin
下,如果需要在命令行直接使用 my_cmd
运行,记得加到 PATH
。
pip 中更改安装位置的选项
--prefix PATH
,替换path_pretix
为给定的值--root ROOT_PATH
,在$path_prefix
,前面加上ROOT_PATH
,比如--root /home/admin
,$path_prefix
就会从/usr
变成/home/admin/usr
--target TARGET
,直接指定安装到TARGET
虚拟环境
虚拟环境就是为了隔离不同项目的依赖包,使他们安装到不同的路径下,以防止依赖冲突的问题。理解了 Python 是如何安装包的机制之后就不难理解虚拟环境(virturalenv
, venv
模块)的原理。其实,运行 virtualenv myenv
会复制一个新的Python解释器到myenv/bin
,并创建好myenv_lib
,myenv/lib/pythonX.Y/site-packages
等目录(venv
模块不是用的复制,但结果基本一样)。执行source myenv/bin/activate
以后会把myenv/bin
塞到PATH
前面,让这个复制出来的 Python
解释器最优先被搜索到。这样,后续安装包时,$path_prefix
就会是myenv
了,从而实现了安装路径的隔离。
脚本运行方式对搜索路径的影响
从上面的介绍大家可以知道,Python 找不找得到一个包,最直接的原因是sys.path
,而更进一步的原因是sys.executable
的路径。程序写完了,我们总得需要运行它,不同的运行方法却有可能影响到sys.path
而造成不同的行为,下面我们就来讨论这个问题。
情况一
假设你的包结构如下
|
|
main.py
的内容:
|
|
b.py
的文件内容很简单:
|
|
现在在 main.py
同级的目录下执行,可以看到正常输出path
,且path
路径第一个就是我们项目的当前目录py_test
,也是我们的执行目录
|
|
python xxx.py
的运行方式叫做直接运行,这时该文件中的 __name__
值会指定为 __main__
,IDE 中的「 Run File」「 运行脚本」用的就是这种方式。可以看到这时 sys.path
的第一个值是该脚本文件所在的目录,随脚本路径而变化,记住我们执行测试始终是在 /home/admin/test_path
这个目录下。
情况二
还是那个结构,我们将项目复制一份,在my_package
目录里增加一个a.py
文件,仅做一个简单的打印`print(“I’m a”)
项目结构如下
|
|
a.py
的文件内容:
|
|
好,那么如果我们需要在 b.py
中导入 a.py
,那么 b.py
脚本中应该怎么写呢?
b.py
的文件内容,这里的import
并没有写在最上面是为了能看到sys.path
的输出:
|
|
- 此时,再执行一遍上面的测试
|
|
执行报错了,根据前面讲的内容,这个报错就是意料之中了——a.py
所在的目录 /Users/admin/Files/Projects/py_test1/my_package
压根没有包含 sys.path
中 ,自然就找不到 a
文件了。
那换个思路,直接在当前main目录执行b.py
是否会报错?
|
|
结果没有报错,相应的目录位置也变了,不是main.py
所在的/Users/admin/Files/Projects/py_test1
目录,而是my_package
目录
情况三
还是刚刚的代码,只是把b.py
的内容更新了下,将 import a
改成 from my_package import a
|
|
同样的先执行python main.py
测试(我重新拷贝了项目命名为py_test2
)
|
|
改成 from my_package import a
,执行不报错了,注意由于 b
是在 my_package
包中的,这时可以使用相对导入,写 from . import a
和 from my_package import a
的效果是一样的。
因为基于同样的分析,我们可以推断直接执行 python my_package/b.py
会报错提示找不到 my_package
,运行结果如下
|
|
果然跟我们推理的一样,就是路径不对报错。
情况四
那么我有没有让这两次运行都不报错的方法呢?有。我们要知道,一个项目中的入口是有限的,实际上不会出现可以执行的代码既在顶层有,又在子目录里也有。我们应该把主要的运行逻辑,都放在 main.py
中(不一定是这个名字,比如 Django
项目是 manage.py
),如果这时确实需要运行一个子目录中某脚本的代码,应该用 python -m <module_name>
,而 b.py
中导入 a
的语句应为 from my_package import a
,我们来看一下运行效果:
|
|
可以看到这两次运行的 sys.path
内容一致了,它的第一个值是当前运行所在的目录。这种运行方式叫做以模块方式运行,python -m
后面的参数是(以 .
分隔的)模块名,而不是路径名。由于这种统一性,你在项目中的所有导入都可以用相同的定义方式,而不用管是在哪个脚本中。这也是为什么 Django
官方文档中推荐导入名称全部用 myapp.models.users
这种形式。
除此之外,以模块方式运行的时候,传入模块名的每一级父模块(或包)都会以模块形式运行,这意味着你可以在模块中使用相对导入(以直接运行方式运行不可以),并且传入的模块中__name__
的值会置为 __main__
,你依然可以应用 if __name__ == "__main__":
的判断。如果 python -m <module_name>
中传入的模块是个包,那么会执行包目录中的 __main__.py
脚本(如果存在),此时该脚本的 __name__
值为 __main__
。
总结
看到这里大家可以发现,关于包路径搜索最重要的就是这个$path_prefix
路径前缀,而这个值又是从使用的 Python
解释器路径推导出来的。所以要找到包的路径,只需要知道解释器的路径就可以了,如果遇到改变包的路径,只需要通过正确的PATH设置,指定你想要的 Python
解释器即可。
现在回到开头的三个问题,已经解决了。