在現代計算機中,存儲器系統的結構可以用一個存儲器層次(Memory Hierarchy)模型來刻畫。
越位于高層的存儲設備越接近CPU,他們的容量越小,但是對其中數據的訪問速度越快;而位于底層的存儲設備正好相反,容量更大,速度更慢。
一般意義上的緩存
不同層次間數據的傳輸
不難理解為了提高CPU對數據操作的速度,應該盡量讓數據處于較高的階層。而在從低層提取數據時,往往是按塊(chunk)提取的,也就是說往往會提取包含此時所需要數據的一大塊數據,并把這塊數據放到上一層,再從這上一層中提取那一塊數據,當然,這次提取的也是一塊數據,但是這一塊比較小。
你可能會好奇為什么不只提取那一段有效的數據而提取一大塊呢?有這么幾個原因:1.提取一整塊數據而不是單獨的數據有利于減少數據在總線上傳輸的次數,提高效率。2.根據局部性原理(locality),當前數據周圍的數據可能CPU在執行完當前操作后馬上就會用到,先提前提到上一層往往能提高效率。3.充分利用上一層資源很重要啊,留著不用還能生更多存儲器寶寶嗎?
上一層的存儲器暫時存放了下一層的數據,這就是緩存(cache)的概念。因此從上面的存儲器階層我們不難發現,本地磁盤(local disks)可以作為遠程二級存儲介質(remote secondary storage)的緩存;主存(main memory)可以作為本地磁盤(local disks)的緩存;三級緩存(L3 cache)可以作為主存(main memory)的緩存等等。
命中與不命中
當CPU要從一個存儲設備中獲取數據時,會先看看它上一層的存儲設備中有沒有所要的數據。這不難理解,因為CPU曾經把一大塊的數據提到它的上一層存儲設備中。當CPU在上一層存儲設備中找到所要的數據時,很幸運,這就是一次訪問命中(hit),這次命中為CPU省了不少訪問下一層存儲設備的時間。當然CPU不總是這么走運,很可能在這一層存儲設備中沒有所需要的數據,這就是一次不命中(miss)。不命中帶來的訪問下層存儲器會導致很長的時間懲罰。
緩存管理
之前說過不同層次間數據是以塊為單位移動的,訪問數據時也存在命中與不命中問題,這些麻煩的事情都是由誰來管理的呢?不同的層次的管理機制不同,寄存器的緩存邏輯由編譯器管理;L1~L3緩存由硬件管理,作為硬盤緩存的主存由操作系統和硬件一同管理。
高速緩存
細心的讀者可能發現了,有三個家伙的名字里就有緩存,分別是L1 cache, L2 cache, L3 cache。這些存儲介質在跑的飛起的CPU和慢吞吞的主存中起到紐帶的作用,他們被叫做高速緩存。我們先從簡單情況開始,即只有L1的情況。即CPU從主存獲取數據,L1緩存作為主存的緩存。
高速緩存的通用結構
CPU通過地址總線向存儲器傳輸所需數據所在的地址。假設地址長度有m位,我們可以像下圖這樣把這個地址分成三部分。
你也許會問為什么取地址中間幾位來作為緩存的組數而不是最高幾位或最低幾位呢?看了下面一小節再回答這個問題。
下面來討論幾種具體的緩存的實現
直接映射高速緩存(Direct-Mapped Caches)
當E = 1時,就形成了這種緩存結構。它的特點是每組只有一行,這樣子的話0x00|000|xxx和0x01|000|xxx都會映射到第0組的唯一那行,所以當第一次把0x00|000|xxx數據加載到緩存的第0行第0組上,第二次要訪問0x01|000|xxx的數據,就出現了一個不命中,這是就需要用0x01|000|xxx的數據替換原數據。
組相聯高速緩存(Set Associative Caches)
當1 < E < C/B時,這里C是緩存容量,成為組相聯高速緩存。與直接映射高速緩存相比,增加的行可以提高命中率,但是對于不命中的處理相對就復雜了,一般來說如果有有效位表明這一行沒被寫給的行,就寫道這一行,否則寫到這些行里最后用到的那一行里。
全相聯高速緩存(Fully Associative Caches)
此時E = C/B,也就是E * B = C,而C = S * B * E(你有推導出這個公式嗎?),所以S = 1,也就是只有1組。
此時地址被簡單地分成了兩部分,標志位和塊偏移位。對不命中的處理和組相聯高速緩存相似。
現在讓我們回到之前的問題。
根據局部性原理,地址接近的內存單元很可能被訪問的時間也很接近,所以如果用最低幾位,相鄰的地址空間映射到了不同的組不利于局部性發揮作用,因為他們本可以映射到同一組,CPU訪問時可以直接命中。如果用最高幾位每一組的行數就會很多,會降低查找緩存的效率。
緩存的力量
假設要從主存中取一段數據到CPU,每次從L1緩存中取數據所需的時間為tc,每次從主存中取數據的時間為tm,總命中率為h。
那么這次取數行為所需總時間的數學期望Ex(t)1= n * (h * tc + (1 - h) * (tc + tm))
如果沒有緩存機制,所需總時間的數學期望Ex(t)2 = n * (tc + tm)
通常tc為幾個時鐘周期而tm為幾十到幾百個時鐘周期。Ex(t)1/Ex(t)2 = 1-h + (h * tc) / (tc + tm)約等于1-h,當命中率為0.5時,速度幾乎提高了一倍!