一、GIL是什么
官方解釋:
In CPython, the global interpreter lock, or GIL, is a mutex that prevents multiple native threads from executing Python bytecodes at once. This lock is necessary mainly because CPython’s memory management is not thread-safe. (However, since the GIL exists, other features have grown to depend on the guarantees that it enforces.)
這段話的意思就是說:在Cpython解釋器中,同一個進程下開啟的多線程,同一時刻只能有一個線程執行,無法利用多核優勢
接下來,我們需要明確的一點是GIL并不是Python的特性,它是在實現Python解析器(CPython)時所引入的一個概念。就好比C++是一套語言(語法)標準,但是可以用不同的編譯器來編譯成可執行代碼。有名的編譯器例如GCC,INTEL C++,Visual C++等。Python也一樣,同樣一段代碼可以通過CPython,PyPy,Psyco等不同的Python執行環境來執行。像其中的JPython就沒有GIL。然而因為CPython是大部分環境下默認的Python執行環境。所以在很多人的概念里CPython就是Python,也就想當然的把GIL歸結為Python語言的缺陷。所以這里要先明確一點:GIL并不是Python的特性,Python完全可以不依賴于GIL。
二、GIL介紹
GIL本質就是一把互斥鎖,既然是互斥鎖,所有互斥鎖的本質都一樣,都是將并發運行變成串行,以此來控制同一時間內共享數據只能被一個任務所修改,進而保證數據安全。保護不同的數據的安全,就應該加不同的鎖。
每執行一個python程序,就是開啟一個進程,在一個python的進程內,不僅有其主線程或者由該主線程開啟的其他線程,還有解釋器開啟的垃圾回收等解釋器級別的線程,所有的線程都運行在這一個進程內,所以:
<pre style="margin: 0px; padding: 0px; white-space: pre-wrap; word-wrap: break-word; font-family: "Courier New" !important; font-size: 12px !important;">
1、所有數據都是共享的,這其中,代碼作為一種數據也是被所有線程共享的(test.py的所有代碼以及Cpython解釋器的所有代碼) 2、所有線程的任務,都需要將任務的代碼當做參數傳給解釋器的代碼去執行,即所有的線程要想運行自己的任務,首先需要解決的是能夠訪問到解釋器的代碼。</pre>
綜上:
如果多個線程的target=work,那么執行流程是
多個線程先訪問到解釋器的代碼,即拿到執行權限,然后將target的代碼交給解釋器的代碼去執行
解釋器的代碼是所有線程共享的,所以垃圾回收線程也可能訪問到解釋器的代碼而去執行,這就導致了一個問題:對于同一個數據100,可能線程1執行x=100的同時,而垃圾回收執行的是回收100的操作,解決這種問題沒有什么高明的方法,就是加鎖處理,如下圖的GIL,保證python解釋器同一時間只能執行一個任務的代碼
三、GIL與Lock
GIL保護的是解釋器級的數據,保護用戶自己的數據則需要自己加鎖處理,如下圖
image
四、GIL與多線程
有了GIL的存在,python有這兩個特點:
1、進程可以利用多核,但是開銷大。
2、多線程開銷小,卻無法利用多核優勢。
也就是說Python中的多線程是假的多線程,Python解釋器雖然可以開啟多個線程,但同一時間只有一個線程能在解釋器中執行,而做到這一點正是由于GIL鎖的存在,它的存在使得CPU的資源同一時間只會給一個線程使用,而由于開啟線程的開銷小,所以多線程才能有一片用武之地,不然就真的是雞肋了。
而python的多線程到底有沒有用,我們需要看任務是I/O密集型,還是計算密集型:
如果是I/O密集型任務,有再多核也沒用,即能開再多進程也沒用,所以我們利用python的多線程一點問題也沒有;
如果是計算密集型任務,我們就直接使用多進程就可以了