java基礎:HashMap — 源碼分析

其他更多java基礎文章:
java基礎學習(目錄)


學習資料
Java 8系列之重新認識HashMap
Java集合:HashMap詳解(JDK 1.8)

本文將不講紅黑樹相關的內容,因為我自己也還沒弄懂,下一步將算法和數據結構看完后,會寫一篇源碼分析(二)作為后續。

摘要

HashMap是Java程序員使用頻率最高的用于映射(鍵值對)處理的數據類型。隨著JDK(Java Developmet Kit)版本的更新,JDK1.8對HashMap底層的實現進行了優化,例如引入紅黑樹的數據結構和擴容的優化等。本文結合JDK1.7和JDK1.8的區別,深入探討HashMap的結構實現和功能原理。

簡介

Java為數據結構中的映射定義了一個接口java.util.Map,此接口主要有四個常用的實現類,分別是HashMap、Hashtable、LinkedHashMap和TreeMap,類繼承關系如下圖所示:

image

下面針對各個實現類的特點做一些說明:

(1) HashMap:它根據鍵的hashCode值存儲數據,大多數情況下可以直接定位到它的值,因而具有很快的訪問速度,但遍歷順序卻是不確定的。 HashMap最多只允許一條記錄的鍵為null,允許多條記錄的值為null。HashMap非線程安全,即任一時刻可以有多個線程同時寫HashMap,可能會導致數據的不一致。如果需要滿足線程安全,可以用 Collections的synchronizedMap方法使HashMap具有線程安全的能力,或者使用ConcurrentHashMap。

(2) Hashtable:Hashtable是遺留類,很多映射的常用功能與HashMap類似,不同的是它承自Dictionary類,并且是線程安全的,任一時間只有一個線程能寫Hashtable,并發性不如ConcurrentHashMap,因為ConcurrentHashMap引入了分段鎖。Hashtable不建議在新代碼中使用,不需要線程安全的場合可以用HashMap替換,需要線程安全的場合可以用ConcurrentHashMap替換。

(3) LinkedHashMap:LinkedHashMap是HashMap的一個子類,保存了記錄的插入順序,在用Iterator遍歷LinkedHashMap時,先得到的記錄肯定是先插入的,也可以在構造時帶參數,按照訪問次序排序。

(4) TreeMap:TreeMap實現SortedMap接口,能夠把它保存的記錄根據鍵排序,默認是按鍵值的升序排序,也可以指定排序的比較器,當用Iterator遍歷TreeMap時,得到的記錄是排過序的。如果使用排序的映射,建議使用TreeMap。在使用TreeMap時,key必須實現Comparable接口或者在構造TreeMap傳入自定義的Comparator,否則會在運行時拋出java.lang.ClassCastException類型的異常。

對于上述四種Map類型的類,要求映射中的key是不可變對象。不可變對象是該對象在創建后它的哈希值不會被改變。如果對象的哈希值發生變化,Map對象很可能就定位不到映射的位置了。

通過上面的比較,我們知道了HashMap是Java的Map家族中一個普通成員,鑒于它可以滿足大多數場景的使用條件,所以是使用頻度最高的一個。下文我們主要結合源碼,從存儲結構、常用方法分析、擴容以及安全性等方面深入講解HashMap的工作原理。

內部實現

搞清楚HashMap,首先需要知道HashMap是什么,即它的存儲結構-字段;其次弄明白它能干什么,即它的功能實現-方法。下面我們針對這兩個方面詳細展開講解。

存儲結構

從結構實現來講,HashMap是數組+鏈表+紅黑樹(JDK1.8增加了紅黑樹部分)實現的,如下如所示。

HashMap結構圖

字段

我們先了解一下HashMap的基礎字段和屬性

static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // 默認table容量16
static final int MAXIMUM_CAPACITY = 1 << 30; //容量最大值為2的30次方
static final float DEFAULT_LOAD_FACTOR = 0.75f;//默認負載因子
static final int MIN_TREEIFY_CAPACITY = 64; //最小使用紅黑樹的容量

transient Node<K,V>[] table;//用于存放Node的數組
transient int size; //hashmap實際存儲的Node(鍵值對)個數
transient int modCount; //記錄HashMap內部結構發生變化的次數
int threshold; //HashMap所能容納的最大數據量的Node(鍵值對)個數
final float loadFactor;//負載因子

HashMap類中有一個非常重要的字段,就是 Node[] table,即哈希桶數組,明顯它是一個Node的數組。我們來看Node[JDK1.8]是何物。

static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;    //用來定位數組索引位置
        final K key;
        V value;
        Node<K,V> next;   //鏈表的下一個node

        Node(int hash, K key, V value, Node<K,V> next) { ... }
        public final K getKey(){ ... }
        public final V getValue() { ... }
        public final String toString() { ... }
        public final int hashCode() { ... }
        public final V setValue(V newValue) { ... }
        public final boolean equals(Object o) { ... }
}

Node是HashMap的一個內部類,實現了Map.Entry接口,本質是就是一個映射(鍵值對)。上圖中的每個黑色圓點就是一個Node對象。

Node[] table的初始化長度length(默認值是16),loadFactor為負載因子(默認值是0.75),threshold是HashMap所能容納的最大數據量的Node(鍵值對)個數。threshold = length * Load factor。也就是說,在數組定義好長度之后,負載因子越大,所能容納的鍵值對個數越多。

結合負載因子的定義公式可知,threshold就是在此Load factor和length(數組長度)對應下允許的最大元素數目,超過這個數目就重新resize(擴容),擴容后的HashMap容量是之前容量的兩倍。默認的負載因子0.75是對空間和時間效率的一個平衡選擇,建議大家不要修改,除非在時間和空間比較特殊的情況下,如果內存空間很多而又對時間效率要求很高,可以降低負載因子Load factor的值;相反,如果內存空間緊張而對時間效率要求不高,可以增加負載因子loadFactor的值,這個值可以大于1。

size這個字段其實很好理解,就是HashMap中實際存在的鍵值對數量。注意和table的長度length、容納最大鍵值對數量threshold的區別。而modCount字段主要用來記錄HashMap內部結構發生變化的次數,主要用于迭代的快速失敗。強調一點,內部結構發生變化指的是結構發生變化,例如put新鍵值對,但是某個key對應的value值被覆蓋不屬于結構變化。

方法細節

定位哈希桶數組索引位置

不管增加、刪除、查找鍵值對,定位到哈希桶數組的位置都是很關鍵的第一步。前面說過HashMap的數據結構是“數組+鏈表+紅黑樹”的結合,所以我們當然希望這個HashMap里面的元素位置盡量分布均勻些,盡量使得每個位置上的元素數量只有一個,那么當我們用hash算法求得這個位置的時候,馬上就可以知道對應位置的元素就是我們要的,不用遍歷鏈表/紅黑樹,大大優化了查詢的效率。HashMap定位數組索引位置,直接決定了hash方法的離散性能。下面是定位哈希桶數組的源碼:

// 代碼1
static final int hash(Object key) { // 計算key的hash值
    int h;
    // 1.先拿到key的hashCode值; 2.將hashCode的高16位參與運算
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
// 代碼2
int n = tab.length;
// 將(tab.length - 1) 與 hash值進行&運算
int index = (n - 1) & hash;

整個過程本質上就是三步:

  • 拿到key的hashCode值
  • 將hashCode的高位參與運算,重新計算hash值
  • 將計算出來的hash值與(table.length - 1)進行&運算

對于任意給定的對象,只要它的hashCode()返回值相同,那么計算得到的hash值總是相同的。為了使元素在數組桶table里分布均勻一點,我們首先想到的就是把hash值對table長度取模運算

但是模運算消耗還是比較大的,我們知道計算機比較快的運算為位運算,因此JDK團隊對取模運算進行了優化,使用上面代碼2的位與運算來代替模運算。這個方法非常巧妙,它通過 “(table.length -1) & h” 來得到該對象的索引位置,這個優化是基于以下公式:x mod 2^n = x & (2^n - 1)。我們知道HashMap底層數組的長度總是2的n次方,并且取模運算為“h mod table.length”,對應上面的公式,可以得到該運算等同于“h mod table.length = h & (table.length - 1)”。這是HashMap在速度上的優化,因為&比%具有更高的效率。

在JDK1.8的實現中,還優化了高位運算的算法,將hashCode的高16位與hashCode進行異或運算,主要是為了在table的length較小的時候,讓高位也參與運算,并且不會有太大的開銷。

下圖是一個簡單的例子,table長度為16:

put方法

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}
 
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    // table是否為空或者length等于0, 如果是則調用resize方法進行初始化
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;    
    // 通過hash值計算索引位置, 如果table表該索引位置節點為空則新增一個
    if ((p = tab[i = (n - 1) & hash]) == null)// 將索引位置的頭節點賦值給p
        tab[i] = newNode(hash, key, value, null);
    else {  // table表該索引位置不為空
        Node<K,V> e; K k;
        if (p.hash == hash && // 判斷p節點的hash值和key值是否跟傳入的hash值和key值相等
            ((k = p.key) == key || (key != null && key.equals(k)))) 
            e = p;  // 如果相等, 則p節點即為要查找的目標節點,賦值給e
        // 判斷p節點是否為TreeNode, 如果是則調用紅黑樹的putTreeVal方法查找目標節點
        else if (p instanceof TreeNode) 
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {  // 走到這代表p節點為普通鏈表節點
            for (int binCount = 0; ; ++binCount) {  // 遍歷此鏈表, binCount用于統計節點數
                if ((e = p.next) == null) { // p.next為空代表不存在目標節點則新增一個節點插入鏈表尾部
                    p.next = newNode(hash, key, value, null);
                    // 計算節點是否超過8個, 減一是因為循環是從p節點的下一個節點開始的
                    if (binCount >= TREEIFY_THRESHOLD - 1)
                        treeifyBin(tab, hash);// 如果超過8個,調用treeifyBin方法將該鏈表轉換為紅黑樹
                    break;
                }
                if (e.hash == hash && // e節點的hash值和key值都與傳入的相等, 則e即為目標節點,跳出循環
                    ((k = e.key) == key || (key != null && key.equals(k)))) 
                    break;
                p = e;  // 將p指向下一個節點
            }
        }
        // e不為空則代表根據傳入的hash值和key值查找到了節點,將該節點的value覆蓋,返回oldValue
        if (e != null) { 
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e); // 用于LinkedHashMap
            return oldValue;
        }
    }
    ++modCount;
    if (++size > threshold) // 插入節點后超過閾值則進行擴容
        resize();
    afterNodeInsertion(evict);  // 用于LinkedHashMap
    return null;
}
  1. 校驗table是否為空或者length等于0,如果是則調用resize方法進行初始化
  2. 通過hash值計算索引位置,將該索引位置的頭節點賦值給p節點,如果該索引位置節點為空則使用傳入的參數新增一個節點并放在該索引位置
  3. 判斷p節點的key和hash值是否跟傳入的相等,如果相等, 則p節點即為要查找的目標節點,將p節點賦值給e節點
  4. 如果p節點不是目標節點,則判斷p節點是否為TreeNode,如果是則調用紅黑樹的putTreeVal方法查找目標節點
  5. 走到這代表p節點為普通鏈表節點,則調用普通的鏈表方法進行查找,并定義變量binCount來統計該鏈表的節點數
  6. 如果p的next節點為空時,則代表找不到目標節點,則新增一個節點并插入鏈表尾部,并校驗節點數是否超過8個,如果超過則調用treeifyBin方法將鏈表節點轉為紅黑樹節點
  7. 如果遍歷的e節點存在hash值和key值都與傳入的相同,則e節點即為目標節點,跳出循環
  8. 如果e節點不為空,則代表目標節點存在,使用傳入的value覆蓋該節點的value,并返回oldValue
  9. 如果插入節點后節點數超過閾值,則調用resize方法進行擴容

resize方法

final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;
    if (oldCap > 0) {   // 老table不為空
        if (oldCap >= MAXIMUM_CAPACITY) {      // 老table的容量超過最大容量值
            threshold = Integer.MAX_VALUE;  // 設置閾值為Integer.MAX_VALUE
            return oldTab;
        }
        // 如果容量*2<最大容量并且>=16, 則將閾值設置為原來的兩倍
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)   
            newThr = oldThr << 1; // double threshold
    }
    else if (oldThr > 0) // 老表的容量為0, 老表的閾值大于0, 是因為初始容量被放入閾值
        newCap = oldThr;    // 則將新表的容量設置為老表的閾值 
    else {  // 老表的容量為0, 老表的閾值為0, 則為空表,設置默認容量和閾值
        newCap = DEFAULT_INITIAL_CAPACITY; 
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    if (newThr == 0) {  // 如果新表的閾值為空, 則通過新的容量*負載因子獲得閾值
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr; // 將當前閾值賦值為剛計算出來的新的閾值
    @SuppressWarnings({"rawtypes","unchecked"})
    // 定義新表,容量為剛計算出來的新容量
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab; // 將當前的表賦值為新定義的表
    if (oldTab != null) {   // 如果老表不為空, 則需遍歷將節點賦值給新表
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            if ((e = oldTab[j]) != null) {  // 將索引值為j的老表頭節點賦值給e
                oldTab[j] = null; // 將老表的節點設置為空, 以便垃圾收集器回收空間
                // 如果e.next為空, 則代表老表的該位置只有1個節點, 
                // 通過hash值計算新表的索引位置, 直接將該節點放在該位置
                if (e.next == null) 
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode)
                     // 調用treeNode的hash分布(跟下面最后一個else的內容幾乎相同)
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap); 
                else { // preserve order
                    Node<K,V> loHead = null, loTail = null; // 存儲跟原索引位置相同的節點
                    Node<K,V> hiHead = null, hiTail = null; // 存儲索引位置為:原索引+oldCap的節點
                    Node<K,V> next;
                    do {
                        next = e.next;
                        //如果e的hash值與老表的容量進行與運算為0,則擴容后的索引位置跟老表的索引位置一樣
                        if ((e.hash & oldCap) == 0) {   
                            if (loTail == null) // 如果loTail為空, 代表該節點為第一個節點
                                loHead = e; // 則將loHead賦值為第一個節點
                            else    
                                loTail.next = e;    // 否則將節點添加在loTail后面
                            loTail = e; // 并將loTail賦值為新增的節點
                        }
                        //如果e的hash值與老表的容量進行與運算為1,則擴容后的索引位置為:老表的索引位置+oldCap
                        else {  
                            if (hiTail == null) // 如果hiTail為空, 代表該節點為第一個節點
                                hiHead = e; // 則將hiHead賦值為第一個節點
                            else
                                hiTail.next = e;    // 否則將節點添加在hiTail后面
                            hiTail = e; // 并將hiTail賦值為新增的節點
                        }
                    } while ((e = next) != null);
                    if (loTail != null) {
                        loTail.next = null; // 最后一個節點的next設為空
                        newTab[j] = loHead; // 將原索引位置的節點設置為對應的頭結點
                    }
                    if (hiTail != null) {
                        hiTail.next = null; // 最后一個節點的next設為空
                        newTab[j + oldCap] = hiHead; // 將索引位置為原索引+oldCap的節點設置為對應的頭結點
                    }
                }
            }
        }
    }
    return newTab;
}
  1. 如果老表的容量大于0,判斷老表的容量是否超過最大容量值:如果超過則將閾值設置為Integer.MAX_VALUE,并直接返回老表(此時oldCap * 2比Integer.MAX_VALUE大,因此無法進行重新分布,只是單純的將閾值擴容到最大);如果容量 * 2小于最大容量并且不小于16,則將閾值設置為原來的兩倍。
  2. 如果老表的容量為0,老表的閾值大于0,這種情況是傳了容量的new方法創建的空表,將新表的容量設置為老表的閾值(這種情況發生在新創建的HashMap第一次put時,該HashMap初始化的時候傳了初始容量,由于HashMap并沒有capacity變量來存放容量值,因此傳進來的初始容量是存放在threshold變量上(查看HashMap(int initialCapacity, float loadFactor)方法),因此此時老表的threshold的值就是我們要新創建的HashMap的capacity,所以將新表的容量設置為老表的閾值。
  3. 如果老表的容量為0,老表的閾值為0,這種情況是沒有傳容量的new方法創建的空表,將閾值和容量設置為默認值。
  4. 如果新表的閾值為空,則通過新的容量 * 負載因子獲得閾值(這種情況是初始化的時候傳了初始容量,跟第2點相同情況,也只有走到第2點才會走到該情況)。
  5. 將當前閾值設置為剛計算出來的新的閾值,定義新表,容量為剛計算出來的新容量,將當前的表設置為新定義的表。
  6. 如果老表不為空,則需遍歷所有節點,將節點賦值給新表。
  7. 將老表上索引為j的頭結點賦值給e節點,并將老表上索引為j的節點設置為空。
  8. 如果e的next節點為空,則代表老表的該位置只有1個節點,通過hash值計算新表的索引位置,直接將該節點放在新表的該位置上。
  9. 如果e的next節點不為空,并且e為TreeNode,則調用split方法進行hash分布。
  10. 如果e的next節點不為空,并且e為普通的鏈表節點,則進行普通的hash分布。
  11. 如果e的hash值與老表的容量(為一串只有1個為2的二進制數,例如16為0000 0000 0001 0000)進行位與運算為0,則說明e節點擴容后的索引位置跟老表的索引位置一樣,進行鏈表拼接操作:如果loTail為空,代表該節點為第一個節點,則將loHead賦值為該節點;否則將節點添加在loTail后面,并將loTail賦值為新增的節點。
  12. 如果e的hash值與老表的容量(為一串只有1個為2的二進制數,例如16為0000 0000 0001 0000)進行位與運算不為0,則說明e節點擴容后的索引位置為:老表的索引位置+oldCap,進行鏈表拼接操作:如果hiTail為空,代表該節點為第一個節點,則將hiHead賦值為該節點;否則將節點添加在hiTail后面,并將hiTail賦值為新增的節點。
  13. 老表節點重新hash分布在新表結束后,如果loTail不為空(說明老表的數據有分布到新表上原索引位置的節點),則將最后一個節點的next設為空,并將新表上原索引位置的節點設置為對應的頭結點;如果hiTail不為空(說明老表的數據有分布到新表上原索引+oldCap位置的節點),則將最后一個節點的next設為空,并將新表上索引位置為原索引+oldCap的節點設置為對應的頭結點。
  14. 返回新表。

看完之后可能有個疑問,為什么擴容后,節點的hash為什么只可能分布在原索引位置與原索引+oldCap位置?
我們來梳理一下,索引位置的計算主要有三步:取key的hashCode值、高位運算、取模運算。當我們Node點不變時,第一第二步得到的結果hashcode是不變的,那么變化就在最后的取模運算h & (table.length - 1)。我們知道數組桶table的擴容是2的倍數。舉個例子,假設老表的容量為16,即oldCap=16,此時的table.length-1為01111(其余高位0省略),擴容后新表容量為16*2=32。擴容后的table.length-1為11111(其余高位0省略)。此時的差異就在倒數第五位的數值。如果hashcode在倒數第5位為0(下圖b的key1),則擴容后進行取模運算時,位置不變。反之如果hashcode在倒數第5位為1(下圖b的key2),則與相比原來,增加了2^5(16),也就是oldCap的數值。


這就是JDK1.8相對于JDK1.7做的優化,順便提一下在JDK1.7中的邏輯,因為這部分有不少細節改動。

resize(JDK1.7)
void resize(int newCapacity) {   //傳入新的容量
     Entry[] oldTable = table;    //引用擴容前的Entry數組
     int oldCapacity = oldTable.length;         
     if (oldCapacity == MAXIMUM_CAPACITY) {  //擴容前的數組大小如果已經達到最大(2^30)了
         threshold = Integer.MAX_VALUE; //修改閾值為int的最大值(2^31-1),這樣以后就不會擴容了
         return;
     }
  
     Entry[] newTable = new Entry[newCapacity];  //初始化一個新的Entry數組
     transfer(newTable);                         //!!將數據轉移到新的Entry數組里
     table = newTable;                           //HashMap的table屬性引用新的Entry數組
     threshold = (int)(newCapacity * loadFactor);//修改閾值
 }

void transfer(Entry[] newTable) {
     Entry[] src = table;                   //src引用了舊的Entry數組
     int newCapacity = newTable.length;
     for (int j = 0; j < src.length; j++) { //遍歷舊的Entry數組
         Entry<K,V> e = src[j];             //取得舊Entry數組的每個元素
         if (e != null) {
             src[j] = null;//釋放舊Entry數組的對象引用(for循環后,舊的Entry數組不再引用任何對象)
             do {
                 Entry<K,V> next = e.next;
                 int i = indexFor(e.hash, newCapacity); //!!重新計算每個元素在數組中的位置
                 e.next = newTable[i]; //標記[1]
                newTable[i] = e;      //將元素放在數組上
                 e = next;             //訪問下一個Entry鏈上的元素
             } while (e != null);
         }
     }
 }

newTable[i]的引用賦給了e.next,也就是使用了單鏈表的頭插入方式,同一位置上新元素總會被放在鏈表的頭部位置;這樣先放在一個索引上的元素終會被放到Entry鏈的尾部(如果發生了hash沖突的話)。
下面舉個例子說明下擴容過程。假設了我們的hash算法就是簡單的用key mod 一下表的大小(也就是數組的長度)。其中的哈希桶數組table的size=2, 所以key = 3、7、5,put順序依次為 5、7、3。在mod 2以后都沖突在table[1]這里了。這里假設負載因子 loadFactor=1,即當鍵值對的實際大小size 大于 table的實際大小時進行擴容。接下來的三個步驟是哈希桶數組 resize成4,然后所有的Node重新rehash的過程。


JDK1.7擴容邏輯

由此可以看出,JDK1.8的擴容并不會導致鏈表順序的倒序。而且JDK1.7擴容時導致的倒序還會在并發的多線程使用場景中使用HashMap可能造成死循環,這個在接下來的安全性中會詳細講。

get方法

public V get(Object key) {
    Node<K,V> e;
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}
 
final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    // table不為空 && table長度大于0 && table索引位置(根據hash值計算出)不為空
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {    
        if (first.hash == hash && // always check first node
            ((k = first.key) == key || (key != null && key.equals(k)))) 
            return first;   // first的key等于傳入的key則返回first對象
        if ((e = first.next) != null) { // 向下遍歷
            if (first instanceof TreeNode)  // 判斷是否為TreeNode
                // 如果是紅黑樹節點,則調用紅黑樹的查找目標節點方法getTreeNode
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            // 走到這代表節點為鏈表節點
            do { // 向下遍歷鏈表, 直至找到節點的key和傳入的key相等時,返回該節點
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;    // 找不到符合的返回空
}
  1. 先對table進行校驗,校驗是否為空,length是否大于0
  2. 使用table.length - 1和hash值進行位與運算,得出在table上的索引位置,將該索引位置的節點賦值給first節點,校驗該索引位置是否為空
  3. 檢查first節點的hash值和key是否和入參的一樣,如果一樣則first即為目標節點,直接返回first節點
  4. 如果first的next節點不為空則繼續遍歷
  5. 如果first節點為TreeNode,則調用getTreeNode方法(見下文代碼塊1)查找目標節點
  6. 如果first節點不為TreeNode,則調用普通的遍歷鏈表方法查找目標節點
  7. 如果查找不到目標節點則返回空

安全性

在多線程使用場景中,應該盡量避免使用線程不安全的HashMap,而使用線程安全的ConcurrentHashMap。那么為什么說HashMap是線程不安全的,主要有兩個方面:
1. put的時候多線程導致的數據不一致
比如有兩個線程A和B,首先A希望插入一個key-value對到HashMap中,首先計算記錄所要落到的 hash桶的索引坐標,然后獲取到該桶里面的鏈表頭結點,此時線程A的時間片用完了,而此時線程B被調度得以執行,和線程A一樣執行,只不過線程B成功將記錄插到了桶里面,假設線程A插入的記錄計算出來的 hash桶索引和線程B要插入的記錄計算出來的 hash桶索引是一樣的,那么當線程B成功插入之后,線程A再次被調度運行時,它依然持有過期的鏈表頭但是它對此一無所知,以至于它認為它應該這樣做,如此一來就覆蓋了線程B插入的記錄,這樣線程B插入的記錄就憑空消失了,造成了數據不一致的行為。
2. resize而引起死循環(JDK1.8已經不會出現該問題)
這種情況發生在JDK1.7 中HashMap自動擴容時,當2個線程同時檢測到元素個數超過 數組大小 × 負載因子。此時2個線程會在put()方法中調用了resize(),兩個線程同時修改一個鏈表結構會產生一個循環鏈表(JDK1.7中,會出現resize前后元素順序倒置的情況)。接下來再想通過get()獲取某一個元素,就會出現死循環。
下面舉例子說明在并發的多線程使用場景中使用HashMap可能造成死循環。代碼例子如下:

public class HashMapInfiniteLoop {  

    private static HashMap<Integer,String> map = new HashMap<Integer,String>(2,0.75f);  
    public static void main(String[] args) {  
        map.put(5, "C");  

        new Thread("Thread1") {  
            public void run() {  
                map.put(7, "B");  
                System.out.println(map);  
            };  
        }.start();  
        new Thread("Thread2") {  
            public void run() {  
                map.put(3, "A");  
                System.out.println(map);  
            };  
        }.start();        
    }  
}

其中,map初始化為一個長度為2的數組,loadFactor=0.75,threshold=2*0.75=1,也就是說當put第二個key的時候,map就需要進行resize。

通過設置斷點讓線程1和線程2同時debug到transfer方法(3.3小節代碼塊)的首行。注意此時兩個線程已經成功添加數據。放開thread1的斷點至transfer方法的“Entry next = e.next;” 這一行;然后放開線程2的的斷點,讓線程2進行resize。結果如下圖。

注意,Thread1的 e 指向了key(3),而next指向了key(7),其在線程二rehash后,指向了線程二重組后的鏈表。

線程一被調度回來執行,先是執行 newTalbe[i] = e, 然后是e = next,導致了e指向了key(7),而下一次循環的next = e.next導致了next指向了key(3)。

e.next = newTable[i] 導致 key(3).next 指向了 key(7)。注意:此時的key(7).next 已經指向了key(3), 環形鏈表就這樣出現了。

于是,當我們用線程一調用map.get(11)時,悲劇就出現了——Infinite Loop。

1.7和1.8的對比

HashMap中,如果key經過hash算法得出的數組索引位置全部不相同,即Hash算法非常好,那樣的話,getKey方法的時間復雜度就是O(1),如果Hash算法技術的結果碰撞非常多,假如Hash算極其差,所有的Hash算法結果得出的索引位置一樣,那樣所有的鍵值對都集中到一個桶中,或者在一個鏈表中,或者在一個紅黑樹中,時間復雜度分別為O(n)和O(lgn)。 鑒于JDK1.8做了多方面的優化,總體性能優于JDK1.7。具體我就不在這方面贅述了,可以看下美團大佬的文章,里面有測試Java 8系列之重新認識HashMap

HashMap和HashTable對比

  1. HashMap允許key和value為null,Hashtable不允許。
  2. HashMap的默認初始容量為16,Hashtable為11。
  3. HashMap的擴容為原來的2倍,Hashtable的擴容為原來的2倍加1。
  4. HashMap是非線程安全的,Hashtable是線程安全的。
  5. HashMap的hash值重新計算過,Hashtable直接使用hashCode。
  6. HashMap去掉了Hashtable中的contains方法。
  7. HashMap繼承自AbstractMap類,Hashtable繼承自Dictionary類。

總結

  1. HashMap的底層是個Node數組(Node<K,V>[] table),在數組的具體索引位置,如果存在多個節點,則可能是以鏈表或紅黑樹的形式存在。
  2. 增加、刪除、查找鍵值對時,定位到哈希桶數組的位置是很關鍵的一步,源碼中是通過下面3個操作來完成這一步:1)拿到key的hashCode值;2)將hashCode的高位參與運算,重新計算hash值;3)將計算出來的hash值與(table.length - 1)進行&運算。
  3. HashMap的默認初始容量(capacity)是16,capacity必須為2的冪次方;默認負載因子(load factor)是0.75;實際能存放的節點個數(threshold,即觸發擴容的閾值)= capacity * load factor。
  4. HashMap在觸發擴容后,閾值會變為原來的2倍,并且會進行重hash,重hash后索引位置index的節點的新分布位置最多只有兩個:原索引位置或原索引+oldCap位置。例如capacity為16,索引位置5的節點擴容后,只可能分布在新報索引位置5和索引位置21(5+16)。
  5. 當同一個索引位置的節點在增加后達到9個時,會觸發鏈表節點(Node)轉紅黑樹節點(TreeNode,間接繼承Node),轉成紅黑樹節點后,其實鏈表的結構還存在,通過next屬性維持。鏈表節點轉紅黑樹節點的具體方法為源碼中的treeifyBin(Node<K,V>[] tab, int hash)方法。
  6. 當同一個索引位置的節點在移除后達到6個時,并且該索引位置的節點為紅黑樹節點,會觸發紅黑樹節點轉鏈表節點。紅黑樹節點轉鏈表節點的具體方法為源碼中的untreeify(HashMap<K,V> map)方法。
    HashMap在JDK1.8之后不再有死循環的問題,JDK1.8之前存在死循環的根本原因是在擴容后同一索引位置的節點順序會反掉。
  7. 擴容是一個特別耗性能的操作,所以當程序員在使用HashMap的時候,估算map的大小,初始化的時候給一個大致的數值,避免map進行頻繁的擴容。
  8. 負載因子是可以修改的,也可以大于1,但是建議不要輕易修改,除非情況非常特殊。
  9. HashMap是線程不安全的,不要在并發的環境中同時操作HashMap,建議使用ConcurrentHashMap。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,797評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,179評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,628評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,642評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,444評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,948評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,040評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,185評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,717評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,602評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,794評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,045評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,418評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,414評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,750評論 2 370

推薦閱讀更多精彩內容