目錄:
1. 指令重排
2. 順序一致性
3. volatile
4. final
1.指令重排
要了解指令重排,需要很多知識。首先的一個核心點,指令重排的目的是為了提升程序性能。如果沒有這個考慮,也就沒有了指令重排。
由于內容十分多,我單開一篇文章講指令重排。指令重排序詳解
2. 順序一致性
JMM 對正確同步的多線程程序的內存一致性做了如下保證:
如果程序是正確同步的,程序的執行將具有順序一致性(sequentially consistent)–即程序的執行結果與該程序在順序一致性內存模型中的執行結果相同(馬上我們將會看到,這對于程序員來說是一個極強的保證)。這里的同步是指廣義上的同步,包括對常用同步原語(lock,volatile 和 final)的正確使用。
順序一致性內存模型
順序一致性內存模型是一個被計算機科學家理想化了的理論參考模型,它為程序員提供了極強的內存可見性保證。順序一致性內存模型有兩大特性:
一個線程中的所有操作必須按照程序的順序來執行。
(不管程序是否同步)所有線程都只能看到一個單一的操作執行順序。在順序一致性內存模型中,每個操作都必須原子執行且立刻對所有線程可見。
順序一致性內存模型為程序員提供的視圖如下:
在概念上,順序一致性模型有一個單一的全局內存,這個內存通過一個左右擺動的開關可以連接到任意一個線程。同時,每一個線程必須按程序的順序來執行內存讀/寫操作。從上圖我們可以看出,在任意時間點最多只能有一個線程可以連接到內存。當多個線程并發執行時,圖中的開關裝置能把所有線程的所有內存讀/寫操作串行化。
為了更好的理解,下面我們通過兩個示意圖來對順序一致性模型的特性做進一步的說明。
假設有兩個線程A和B并發執行。其中 A 線程有三個操作,它們在程序中的順序是:A1->A2->A3。B線程也有三個操作,它們在程序中的順序是:B1->B2->B3。
假設這兩個線程使用監視器來正確同步:A 線程的三個操作執行后釋放監視器,隨后 B 線程獲取同一個監視器。那么程序在順序一致性模型中的執行效果將如下圖所示:
現在我們再假設這兩個線程沒有做同步,下面是這個未同步程序在順序一致性模型中的執行示意圖:
未同步程序在順序一致性模型中雖然整體執行順序是無序的,但所有線程都只能看到一個一致的整體執行順序。以上圖為例,線程 A 和 B 看到的執行順序都是:B1->A1->A2->B2->A3->B3。之所以能得到這個保證是因為順序一致性內存模型中的每個操作必須立即對任意線程可見。
但是,在 JMM 中就沒有這個保證。未同步程序在 JMM 中不但整體的執行順序是無序的,而且所有線程看到的操作執行順序也可能不一致。比如,在當前線程把寫過的數據緩存在本地內存中,且還沒有刷新到主內存之前,這個寫操作僅對當前線程可見;從其他線程的角度來觀察,會認為這個寫操作根本還沒有被當前線程執行。只有當前線程把本地內存中寫過的數據刷新到主內存之后,這個寫操作才能對其他線程可見。在這種情況下,當前線程和其它線程看到的操作執行順序將不一致。
同步程序的順序一致性效果
下面我們對前面的示例程序 ReorderExample 用監視器來同步,看看正確同步的程序如何具有順序一致性。
請看下面的示例代碼:
class SynchronizedExample {
int a = 0;
boolean flag = false;
public synchronized void writer() {
? ? a = 1;
? ? flag = true;
}
public synchronized void reader() {
? ? if (flag) {
? ? ? ? int i = a;
? ? ? ? ……
? ? }
}
}?
上面示例代碼中,假設 A 線程執行 writer() 方法后,B 線程執行 reader() 方法。這是一個正確同步的多線程程序。根據 JMM 規范,該程序的執行結果將與該程序在順序一致性模型中的執行結果相同。下面是該程序在兩個內存模型中的執行時序對比圖:
在順序一致性模型中,所有操作完全按程序的順序串行執行。而在 JMM 中,臨界區內的代碼可以重排序(但 JMM 不允許臨界區內的代碼“逸出”到臨界區之外,那樣會破壞監視器的語義)。JMM會在退出監視器和進入監視器這兩個關鍵時間點做一些特別處理,使得線程在這兩個時間點具有與順序一致性模型相同的內存視圖(具體細節后文會說明)。雖然線程 A 在臨界區內做了重排序,但由于監視器的互斥執行的特性,這里的線程 B 根本無法“觀察”到線程 A 在臨界區內的重排序。這種重排序既提高了執行效率,又沒有改變程序的執行結果。
從這里我們可以看到 JMM 在具體實現上的基本方針:在不改變(正確同步的)程序執行結果的前提下,盡可能的為編譯器和處理器的優化打開方便之門。
未同步程序的執行特性
對于未同步或未正確同步的多線程程序,JMM 只提供最小安全性:線程執行時讀取到的值,要么是之前某個線程寫入的值,要么是默認值(0,null,false),JMM 保證線程讀操作讀取到的值不會無中生有(out of thin air)的冒出來。為了實現最小安全性,JVM 在堆上分配對象時,首先會清零內存空間,然后才會在上面分配對象(JVM內部會同步這兩個操作)。因此,在以清零的內存空間(pre-zeroed memory)分配對象時,域的默認初始化已經完成了。
JMM 不保證未同步程序的執行結果與該程序在順序一致性模型中的執行結果一致。因為未同步程序在順序一致性模型中執行時,整體上是無序的,其執行結果無法預知。保證未同步程序在兩個模型中的執行結果一致毫無意義。
和順序一致性模型一樣,未同步程序在 JMM 中的執行時,整體上也是無序的,其執行結果也無法預知。同時,未同步程序在這兩個模型中的執行特性有下面幾個差異:
順序一致性模型保證單線程內的操作會按程序的順序執行,而 JMM 不保證單線程內的操作會按程序的順序執行(比如上面正確同步的多線程程序在臨界區內的重排序)。這一點前面已經講過了,這里就不再贅述。
順序一致性模型保證所有線程只能看到一致的操作執行順序,而JMM不保證所有線程能看到一致的操作執行順序。這一點前面也已經講過,這里就不再贅述。
JMM不保證對64位的 long 型和 double 型變量的讀/寫操作具有原子性,而順序一致性模型保證對所有的內存讀/寫操作都具有原子性。
第3個差異與處理器總線的工作機制密切相關。在計算機中,數據通過總線在處理器和內存之間傳遞。每次處理器和內存之間的數據傳遞都是通過一系列步驟來完成的,這一系列步驟稱之為總線事務(bus transaction)。總線事務包括讀事務(read transaction)和寫事務(write transaction)。讀事務從內存傳送數據到處理器,寫事務從處理器傳送數據到內存,每個事務會讀/寫內存中一個或多個物理上連續的字。這里的關鍵是,總線會同步試圖并發使用總線的事務。在一個處理器執行總線事務期間,總線會禁止其它所有的處理器和 I/O 設備執行內存的讀/寫。下面讓我們通過一個示意圖來說明總線的工作機制:
如上圖所示,假設處理器 A,B 和 C 同時向總線發起總線事務,這時總線仲裁(bus arbitration)會對競爭作出裁決,這里我們假設總線在仲裁后判定處理器A在競爭中獲勝(總線仲裁會確保所有處理器都能公平的訪問內存)。此時處理器 A 繼續它的總線事務,而其它兩個處理器則要等待處理器A的總線事務完成后才能開始再次執行內存訪問。假設在處理器 A 執行總線事務期間(不管這個總線事務是讀事務還是寫事務),處理器D向總線發起了總線事務,此時處理器 D 的這個請求會被總線禁止。
總線的這些工作機制可以把所有處理器對內存的訪問以串行化的方式來執行;在任意時間點,最多只能有一個處理器能訪問內存。這個特性確保了單個總線事務之中的內存讀/寫操作具有原子性。
在一些32位的處理器上,如果要求對64位數據的寫操作具有原子性,會有比較大的開銷。為了照顧這種處理器,java 語言規范鼓勵但不強求 JVM 對64位的 long 型變量和 double 型變量的寫具有原子性。當 JVM 在這種處理器上運行時,會把一個64位 long/ double 型變量的寫操作拆分為兩個32位的寫操作來執行。這兩個32位的寫操作可能會被分配到不同的總線事務中執行,此時對這個64位變量的寫將不具有原子性。
當單個內存操作不具有原子性,將可能會產生意想不到后果。請看下面示意圖:
如上圖所示,假設處理器 A 寫一個 long 型變量,同時處理器 B 要讀這個 long 型變量。處理器 A 中64位的寫操作被拆分為兩個32位的寫操作,且這兩個32位的寫操作被分配到不同的寫事務中執行。同時處理器B中64位的讀操作被分配到單個的讀事務中執行。當處理器 A 和 B 按上圖的時序來執行時,處理器B將看到僅僅被處理器 A “寫了一半“的無效值。
注意,在 JSR -133 之前的舊內存模型中,一個64位 long/ double 型變量的讀/寫操作可以被拆分為兩個32位的讀/寫操作來執行。從 JSR -133 內存模型開始(即從 JDK5 開始),僅僅只允許把一個64位 long/ double 型變量的寫操作拆分為兩個32位的寫操作來執行,任意的讀操作在 JSR -133 中都必須具有原子性(即任意讀操作必須要在單個讀事務中執行)。
3. volatile
volatile 的特性
當我們聲明共享變量為 volatile 后,對這個變量的讀/寫將會很特別。理解 volatile 特性的一個好方法是:把對 volatile 變量的單個讀/寫,看成是使用同一個鎖對這些單個讀/寫操作做了同步。下面我們通過具體的示例來說明,請看下面的示例代碼:
class VolatileFeaturesExample {
? ? //使用volatile聲明64位的long型變量
? ? volatile long vl = 0L;
? ? public void set(long l) {
? ? ? ? vl = l;? //單個volatile變量的寫
? ? }
? ? public void getAndIncrement () {
? ? ? ? vl++;? ? //復合(多個)volatile變量的讀/寫
? ? }
? ? public long get() {
? ? ? ? return vl;? //單個volatile變量的讀
? ? }
}
假設有多個線程分別調用上面程序的三個方法,這個程序在語義上和下面程序等價:
class VolatileFeaturesExample {
? ? long vl = 0L;? ? ? ? ? ? ? // 64位的long型普通變量
? ? //對單個的普通 變量的寫用同一個鎖同步
? ? public synchronized void set(long l) {? ? ? ? ? ?
? ? ? vl = l;
? ? }
? ? public void getAndIncrement () { //普通方法調用
? ? ? ? long temp = get();? ? ? ? ? //調用已同步的讀方法
? ? ? ? temp += 1L;? ? ? ? ? ? ? ? ? //普通寫操作
? ? ? ? set(temp);? ? ? ? ? ? ? ? ? //調用已同步的寫方法
? ? }
? ? public synchronized long get() {
? ? ? ? //對單個的普通變量的讀用同一個鎖同步
? ? ? ? return vl;
? ? }
}?
如上面示例程序所示,對一個 volatile 變量的單個讀/寫操作,與對一個普通變量的讀/寫操作使用同一個鎖來同步,它們之間的執行效果相同。
鎖的 happens-before 規則保證釋放鎖和獲取鎖的兩個線程之間的內存可見性,這意味著對一個volatile 變量的讀,總是能看到(任意線程)對這個 volatile 變量最后的寫入。
鎖的語義決定了臨界區代碼的執行具有原子性。這意味著即使是64位的 long 型和 double 型變量,只要它是 volatile 變量,對該變量的讀寫就將具有原子性。如果是多個 volatile 操作或類似于 volatile++ 這種復合操作,這些操作整體上不具有原子性。
簡而言之,volatile 變量自身具有下列特性:
可見性:對一個 volatile 變量的讀,總是能看到(任意線程)對這個 volatile 變量最后的寫入。
原子性:對任意單個 volatile 變量的讀/寫具有原子性,但類似于 volatile++ 這種復合操作不具有原子性。
volatile 的寫-讀建立的 happens before 關系
上面講的是 volatile 變量自身的特性,對程序員來說,volatile 對線程的內存可見性的影響比 volatile 自身的特性更為重要,也更需要我們去關注。
從 JSR-133 開始,volatile 變量的寫-讀可以實現線程之間的通信。
從內存語義的角度來說,volatile 與鎖有相同的效果:volatile 寫和鎖的釋放有相同的內存語義;volatile 讀與鎖的獲取有相同的內存語義。
請看下面使用volatile變量的示例代碼:
class VolatileExample {
? ? int a = 0;
? ? volatile boolean flag = false;
? ? public void writer() {
? ? ? ? a = 1;? ? ? ? ? ? ? ? ? //1
? ? ? ? flag = true;? ? ? ? ? ? ? //2
? ? }
? ? public void reader() {
? ? ? ? if (flag) {? ? ? ? ? ? ? ? //3
? ? ? ? ? ? int i =? a;? ? ? ? ? //4
? ? ? ? ? ? ……
? ? ? ? }
? ? }
}?
假設線程 A 執行 writer() 方法之后,線程 B 執行 reader() 方法。根據 happens before 規則,這個過程建立的 happens before 關系可以分為兩類:
根據程序次序規則,1 happens before 2; 3 happens before 4。
根據 volatile 規則,2 happens before 3。
根據 happens before 的傳遞性規則,1 happens before 4。
上述 happens before 關系的圖形化表現形式如下:
在上圖中,每一個箭頭鏈接的兩個節點,代表了一個 happens before 關系。黑色箭頭表示程序順序規則;橙色箭頭表示 volatile 規則;藍色箭頭表示組合這些規則后提供的 happens before 保證。
這里 A 線程寫一個 volatile 變量后,B 線程讀同一個 volatile 變量。A 線程在寫volatile 變量之前所有可見的共享變量,在 B 線程讀同一個 volatile 變量后,將立即變得對B線程可見。
volatile 寫-讀的內存語義
volatile 寫的內存語義如下:
當寫一個 volatile 變量時,JMM 會把該線程對應的本地內存中的共享變量刷新到主內存。 以上面示例程序 VolatileExample 為例,假設線程 A 首先執行 writer() 方法,隨后線程 B 執行 reader() 方法,初始時兩個線程的本地內存中的 flag 和 a 都是初始狀態。下圖是線程 A 執行 volatile 寫后,共享變量的狀態示意圖:
如上圖所示,線程A在寫flag變量后,本地內存A中被線程A更新過的兩個共享變量的值被刷新到主內存中。此時,本地內存A和主內存中的共享變量的值是一致的。
volatile讀的內存語義如下:
當讀一個 volatile 變量時,JMM 會把該線程對應的本地內存置為無效。線程接下來將從主內存中讀取共享變量。
下面是線程B讀同一個 volatile 變量后,共享變量的狀態示意圖:
如上圖所示,在讀 flag 變量后,本地內存 B 已經被置為無效。此時,線程 B 必須從主內存中讀取共享變量。線程 B 的讀取操作將導致本地內存B與主內存中的共享變量的值也變成一致的了。
如果我們把 volatile 寫和 volatile 讀這兩個步驟綜合起來看的話,在讀線程 B 讀一個volatile 變量后,寫線程 A 在寫這個 volatile 變量之前所有可見的共享變量的值都將立即變得對讀線程 B 可見。
下面對 volatile 寫和 volatile 讀的內存語義做個總結:
線程 A 寫一個 volatile 變量,實質上是線程 A 向接下來將要讀這個 volatile 變量的某個線程發出了(其對共享變量所在修改的)消息。
線程 B 讀一個 volatile 變量,實質上是線程 B 接收了之前某個線程發出的(在寫這個volatile 變量之前對共享變量所做修改的)消息。
線程A寫一個 volatile 變量,隨后線程 B 讀這個 volatile 變量,這個過程實質上是線程A 通過主內存向線程 B 發送消息。
volatile 內存語義的實現
下面,讓我們來看看 JMM 如何實現 volatile 寫/讀的內存語義。
前文我們提到過重排序分為編譯器重排序和處理器重排序。為了實現 volatile 內存語義,JMM 會分別限制這兩種類型的重排序類型。下面是 JMM 針對編譯器制定的 volatile 重排序規則表:
是否能重排序第二個操作
舉例來說,第三行最后一個單元格的意思是:在程序順序中,當第一個操作為普通變量的讀或寫時,如果第二個操作為 volatile 寫,則編譯器不能重排序這兩個操作。
從上表我們可以看出:
當第二個操作是 volatile 寫時,不管第一個操作是什么,都不能重排序。這個規則確保volatile 寫之前的操作不會被編譯器重排序到 volatile 寫之后。
當第一個操作是 volatile 讀時,不管第二個操作是什么,都不能重排序。這個規則確保volatile 讀之后的操作不會被編譯器重排序到 volatile 讀之前。
當第一個操作是 volatile 寫,第二個操作是 volatile 讀時,不能重排序。
為了實現 volatile 的內存語義,編譯器在生成字節碼時,會在指令序列中插入內存屏障來禁止特定類型的處理器重排序。對于編譯器來說,發現一個最優布置來最小化插入屏障的總數幾乎不可能,為此,JMM 采取保守策略。下面是基于保守策略的 JMM 內存屏障插入策略:
在每個 volatile 寫操作的前面插入一個 StoreStore 屏障。
在每個 volatile 寫操作的后面插入一個 StoreLoad 屏障。
在每個 volatile 讀操作的后面插入一個 LoadLoad 屏障。
在每個 volatile 讀操作的后面插入一個 LoadStore 屏障。
上述內存屏障插入策略非常保守,但它可以保證在任意處理器平臺,任意的程序中都能得到正確的volatile 內存語義。
下面是保守策略下,volatile 寫插入內存屏障后生成的指令序列示意圖:
上圖中的 StoreStore 屏障可以保證在 volatile 寫之前,其前面的所有普通寫操作已經對任意處理器可見了。這是因為 StoreStore 屏障將保障上面所有的普通寫在 volatile 寫之前刷新到主內存。
這里比較有意思的是 volatile 寫后面的 StoreLoad 屏障。這個屏障的作用是避免 volatile寫與后面可能有的 volatile 讀/寫操作重排序。因為編譯器常常無法準確判斷在一個 volatile寫的后面,是否需要插入一個 StoreLoad 屏障(比如,一個 volatile 寫之后方法立即return)。為了保證能正確實現 volatile 的內存語義,JMM 在這里采取了保守策略:在每個volatile 寫的后面或在每個 volatile 讀的前面插入一個 StoreLoad 屏障。從整體執行效率的角度考慮,JMM 選擇了在每個 volatile 寫的后面插入一個 StoreLoad 屏障。因為volatile 寫-讀內存語義的常見使用模式是:一個寫線程寫 volatile 變量,多個讀線程讀同一個 volatile 變量。當讀線程的數量大大超過寫線程時,選擇在 volatile 寫之后插入StoreLoad 屏障將帶來可觀的執行效率的提升。從這里我們可以看到 JMM 在實現上的一個特點:首先確保正確性,然后再去追求執行效率。
下面是在保守策略下,volatile 讀插入內存屏障后生成的指令序列示意圖:
上圖中的 LoadLoad 屏障用來禁止處理器把上面的 volatile 讀與下面的普通讀重排序。LoadStore 屏障用來禁止處理器把上面的 volatile 讀與下面的普通寫重排序。
上述 volatile 寫和 volatile 讀的內存屏障插入策略非常保守。在實際執行時,只要不改變volatile 寫-讀的內存語義,編譯器可以根據具體情況省略不必要的屏障。下面我們通過具體的示例代碼來說明:
class VolatileBarrierExample {
? ? int a;
? ? volatile int v1 = 1;
? ? volatile int v2 = 2;
? ? void readAndWrite() {
? ? ? ? int i = v1;? ? ? ? ? //第一個volatile讀
? ? ? ? int j = v2;? ? ? ? ? // 第二個volatile讀
? ? ? ? a = i + j;? ? ? ? ? ? //普通寫
? ? ? ? v1 = i + 1;? ? ? ? ? // 第一個volatile寫
? ? ? ? v2 = j * 2;? ? ? ? ? //第二個 volatile寫
? ? }
? ? …? ? ? ? ? ? ? ? ? ? //其他方法
}?
針對 readAndWrite() 方法,編譯器在生成字節碼時可以做如下的優化:
注意,最后的 StoreLoad 屏障不能省略。因為第二個 volatile 寫之后,方法立即 return。此時編譯器可能無法準確斷定后面是否會有 volatile 讀或寫,為了安全起見,編譯器常常會在這里插入一個 StoreLoad 屏障。
上面的優化是針對任意處理器平臺,由于不同的處理器有不同“松緊度”的處理器內存模型,內存屏障的插入還可以根據具體的處理器內存模型繼續優化。以 x86 處理器為例,上圖中除最后的StoreLoad 屏障外,其它的屏障都會被省略。
前面保守策略下的 volatile 讀和寫,在 x86 處理器平臺可以優化成:
前文提到過,x86 處理器僅會對寫-讀操作做重排序。X86 不會對讀-讀,讀-寫和寫-寫操作做重排序,因此在 x86 處理器中會省略掉這三種操作類型對應的內存屏障。在 x86 中,JMM 僅需在volatile 寫后面插入一個 StoreLoad 屏障即可正確實現 volatile 寫-讀的內存語義。這意味著在 x86 處理器中,volatile 寫的開銷比 volatile 讀的開銷會大很多(因為執行StoreLoad 屏障開銷會比較大)。
JSR-133 為什么要增強 volatile 的內存語義
在 JSR-133 之前的舊 Java 內存模型中,雖然不允許 volatile 變量之間重排序,但舊的Java 內存模型允許 volatile 變量與普通變量之間重排序。在舊的內存模型中,VolatileExample 示例程序可能被重排序成下列時序來執行:
在舊的內存模型中,當1和2之間沒有數據依賴關系時,1和2之間就可能被重排序(3和4類似)。其結果就是:讀線程B執行4時,不一定能看到寫線程 A 在執行1時對共享變量的修改。
因此在舊的內存模型中 ,volatile 的寫-讀沒有鎖的釋放-獲所具有的內存語義。為了提供一種比鎖更輕量級的線程之間通信的機制,JSR-133 專家組決定增強 volatile 的內存語義:嚴格限制編譯器和處理器對 volatile 變量與普通變量的重排序,確保 volatile 的寫-讀和鎖的釋放-獲取一樣,具有相同的內存語義。從編譯器重排序規則和處理器內存屏障插入策略來看,只要volatile 變量與普通變量之間的重排序可能會破壞 volatile 的內存語意,這種重排序就會被編譯器重排序規則和處理器內存屏障插入策略禁止。
由于 volatile 僅僅保證對單個 volatile 變量的讀/寫具有原子性,而鎖的互斥執行的特性可以確保對整個臨界區代碼的執行具有原子性。在功能上,鎖比 volatile 更強大;在可伸縮性和執行性能上,volatile 更有優勢。如果讀者想在程序中用 volatile 代替監視器鎖
4. final
與前面介紹的鎖和 volatile 相比較,對 final 域的讀和寫更像是普通的變量訪問。對于final 域,編譯器和處理器要遵守兩個重排序規則:
在構造函數內對一個 final 域的寫入,與隨后把這個被構造對象的引用賦值給一個引用變量,這兩個操作之間不能重排序。
初次讀一個包含 final 域的對象的引用,與隨后初次讀這個 final 域,這兩個操作之間不能重排序。
下面,我們通過一些示例性的代碼來分別說明這兩個規則:
public class FinalExample {
? ? int i;? ? ? ? ? ? ? ? ? ? ? ? ? ? //普通變量
? ? final int j;? ? ? ? ? ? ? ? ? ? ? //final變量
? ? static FinalExample obj;
? ? public void FinalExample () {? ? //構造函數
? ? ? ? i = 1;? ? ? ? ? ? ? ? ? ? ? ? //寫普通域
? ? ? ? j = 2;? ? ? ? ? ? ? ? ? ? ? ? //寫final域
? ? }
? ? public static void writer () {? ? //寫線程A執行
? ? ? ? obj = new FinalExample ();
? ? }
? ? public static void reader () {? ? ? //讀線程B執行
? ? ? ? FinalExample object = obj;? ? ? //讀對象引用
? ? ? ? int a = object.i;? ? ? ? ? ? ? ? //讀普通域
? ? ? ? int b = object.j;? ? ? ? ? ? ? ? //讀final域
? ? }
}?
這里假設一個線程 A 執行 writer() 方法,隨后另一個線程 B 執行 reader() 方法。下面我們通過這兩個線程的交互來說明這兩個規則。
寫 final 域的重排序規則
寫 final 域的重排序規則禁止把 final 域的寫重排序到構造函數之外。這個規則的實現包含下面2個方面:
JMM 禁止編譯器把 final 域的寫重排序到構造函數之外。
編譯器會在 final 域的寫之后,構造函數 return 之前,插入一個 StoreStore 屏障。這個屏障禁止處理器把 final 域的寫重排序到構造函數之外。
現在讓我們分析 writer() 方法。writer() 方法只包含一行代碼:finalExample = new FinalExample()。這行代碼包含兩個步驟:
構造一個 FinalExample 類型的對象;
把這個對象的引用賦值給引用變量 obj。
假設線程 B 讀對象引用與讀對象的成員域之間沒有重排序(馬上會說明為什么需要這個假設),下圖是一種可能的執行時序:
在上圖中,寫普通域的操作被編譯器重排序到了構造函數之外,讀線程B錯誤的讀取了普通變量i初始化之前的值。而寫 final 域的操作,被寫 final 域的重排序規則“限定”在了構造函數之內,讀線程 B 正確的讀取了 final 變量初始化之后的值。
寫 final 域的重排序規則可以確保:在對象引用為任意線程可見之前,對象的 final 域已經被正確初始化過了,而普通域不具有這個保障。以上圖為例,在讀線程 B “看到”對象引用 obj 時,很可能 obj 對象還沒有構造完成(對普通域i的寫操作被重排序到構造函數外,此時初始值2還沒有寫入普通域i)。
讀 final 域的重排序規則
讀 final 域的重排序規則如下:
在一個線程中,初次讀對象引用與初次讀該對象包含的 final 域,JMM 禁止處理器重排序這兩個操作(注意,這個規則僅僅針對處理器)。編譯器會在讀 final 域操作的前面插入一個 LoadLoad 屏障。
初次讀對象引用與初次讀該對象包含的 final 域,這兩個操作之間存在間接依賴關系。由于編譯器遵守間接依賴關系,因此編譯器不會重排序這兩個操作。大多數處理器也會遵守間接依賴,大多數處理器也不會重排序這兩個操作。但有少數處理器允許對存在間接依賴關系的操作做重排序(比如 alpha 處理器),這個規則就是專門用來針對這種處理器。
reader() 方法包含三個操作:
初次讀引用變量 obj;
初次讀引用變量 obj 指向對象的普通域 j。
初次讀引用變量 obj 指向對象的 final 域 i。
現在我們假設寫線程 A 沒有發生任何重排序,同時程序在不遵守間接依賴的處理器上執行,下面是一種可能的執行時序:
在上圖中,讀對象的普通域的操作被處理器重排序到讀對象引用之前。讀普通域時,該域還沒有被寫線程A寫入,這是一個錯誤的讀取操作。而讀 final 域的重排序規則會把讀對象 final 域的操作“限定”在讀對象引用之后,此時該 final 域已經被 A 線程初始化過了,這是一個正確的讀取操作。
讀 final 域的重排序規則可以確保:在讀一個對象的 final 域之前,一定會先讀包含這個 final 域的對象的引用。在這個示例程序中,如果該引用不為 null,那么引用對象的 final 域一定已經被 A 線程初始化過了。
如果 final 域是引用類型
上面我們看到的 final 域是基礎數據類型,下面讓我們看看如果 final 域是引用類型,將會有什么效果?
請看下列示例代碼:
public class FinalReferenceExample {
final int[] intArray;? ? ? ? ? ? ? ? ? ? //final是引用類型
static FinalReferenceExample obj;
public FinalReferenceExample () {? ? ? ? //構造函數
? ? intArray = new int[1];? ? ? ? ? ? ? //1
? ? intArray[0] = 1;? ? ? ? ? ? ? ? ? //2
}
public static void writerOne () {? ? ? ? ? //寫線程A執行
? ? obj = new FinalReferenceExample ();? //3
}
public static void writerTwo () {? ? ? ? ? //寫線程B執行
? ? obj.intArray[0] = 2;? ? ? ? ? ? ? ? //4
}
public static void reader () {? ? ? ? ? ? ? //讀線程C執行
? ? if (obj != null) {? ? ? ? ? ? ? ? ? ? //5
? ? ? ? int temp1 = obj.intArray[0];? ? ? //6
? ? }
}
}?
這里 final 域為一個引用類型,它引用一個 int 型的數組對象。對于引用類型,寫 final 域的重排序規則對編譯器和處理器增加了如下約束:
在構造函數內對一個 final 引用的對象的成員域的寫入,與隨后在構造函數外把這個被構造對象的引用賦值給一個引用變量,這兩個操作之間不能重排序。
對上面的示例程序,我們假設首先線程 A 執行 writerOne() 方法,執行完后線程 B 執行 writerTwo() 方法,執行完后線程 C 執行 reader() 方法。下面是一種可能的線程執行時序:
在上圖中,1 是對 final 域的寫入,2 是對這個 final 域引用的對象的成員域的寫入,3是把被構造的對象的引用賦值給某個引用變量。這里除了前面提到的1不能和3重排序外,2和3也不能重排序。
JMM 可以確保讀線程 C 至少能看到寫線程 A 在構造函數中對 final 引用對象的成員域的寫入。即 C 至少能看到數組下標 0 的值為 1。而寫線程 B 對數組元素的寫入,讀線程 C 可能看的到,也可能看不到。JMM 不保證線程 B 的寫入對讀線程 C 可見,因為寫線程 B 和讀線程 C 之間存在數據競爭,此時的執行結果不可預知。
如果想要確保讀線程 C 看到寫線程 B 對數組元素的寫入,寫線程 B 和讀線程 C 之間需要使用同步原語(lock 或 volatile)來確保內存可見性。
為什么 final 引用不能從構造函數內“逸出”
前面我們提到過,寫 final 域的重排序規則可以確保:在引用變量為任意線程可見之前,該引用變量指向的對象的 final 域已經在構造函數中被正確初始化過了。其實要得到這個效果,還需要一個保證:在構造函數內部,不能讓這個被構造對象的引用為其他線程可見,也就是對象引用不能在構造函數中“逸出”。為了說明問題,讓我們來看下面示例代碼:
public class FinalReferenceEscapeExample {
final int i;
static FinalReferenceEscapeExample obj;
public FinalReferenceEscapeExample () {
? ? i = 1;? ? ? ? ? ? ? ? ? ? ? ? ? ? ? //1寫final域
? ? obj = this;? ? ? ? ? ? ? ? ? ? ? ? ? //2 this引用在此“逸出”
}
public static void writer() {
? ? new FinalReferenceEscapeExample ();
}
public static void reader {
? ? if (obj != null) {? ? ? ? ? ? ? ? ? ? //3
? ? ? ? int temp = obj.i;? ? ? ? ? ? ? ? //4
? ? }
}
}?
假設一個線程 A 執行 writer() 方法,另一個線程 B 執行 reader() 方法。這里的操作2使得對象還未完成構造前就為線程 B 可見。即使這里的操作 2 是構造函數的最后一步,且即使在程序中操作 2 排在操作 1 后面,執行 read() 方法的線程仍然可能無法看到 final 域被初始化后的值,因為這里的操作 1 和操作 2 之間可能被重排序。實際的執行時序可能如下圖所示:
從上圖我們可以看出:在構造函數返回前,被構造對象的引用不能為其他線程可見,因為此時的 final 域可能還沒有被初始化。在構造函數返回后,任意線程都將保證能看到 final 域正確初始化之后的值。
final 語義在處理器中的實現
現在我們以 x86 處理器為例,說明 final 語義在處理器中的具體實現。
上面我們提到,寫 final 域的重排序規則會要求譯編器在 final 域的寫之后,構造函數return 之前,插入一個 StoreStore 障屏。讀 final 域的重排序規則要求編譯器在讀 final 域的操作前面插入一個 LoadLoad 屏障。
由于 x86 處理器不會對寫-寫操作做重排序,所以在 x86 處理器中,寫 final 域需要的 StoreStore 障屏會被省略掉。同樣,由于 x86 處理器不會對存在間接依賴關系的操作做重排序,所以在 x86 處理器中,讀 final 域需要的 LoadLoad 屏障也會被省略掉。也就是說在 x86 處理器中,final 域的讀/寫不會插入任何內存屏障!
JSR-133 為什么要增強 final 的語義
在舊的 Java 內存模型中 ,最嚴重的一個缺陷就是線程可能看到 final 域的值會改變。比如,一個線程當前看到一個整形 final 域的值為 0(還未初始化之前的默認值),過一段時間之后這個線程再去讀這個 final 域的值時,卻發現值變為了 1(被某個線程初始化之后的值)。最常見的例子就是在舊的 Java 內存模型中,String 的值可能會改變(參考文獻 2 中有一個具體的例子,感興趣的讀者可以自行參考,這里就不贅述了)。
為了修補這個漏洞,JSR-133 專家組增強了 final 的語義。通過為 final 域增加寫和讀重排序規則,可以為 java 程序員提供初始化安全保證:只要對象是正確構造的(被構造對象的引用在構造函數中沒有“逸出”),那么不需要使用同步(指 lock 和 volatile 的使用),就可以保證任意線程都能看到這個 final 域在構造函數中被初始化之后的值。