在讀取和寫入文件I/O操作都調用操作系統(tǒng)提供的接口,因為磁盤設備是由操作系統(tǒng)管理的,應用程序要訪問物理設備只能通過系統(tǒng)調用的方式來工作。讀和寫分別對應read()和write()兩個系統(tǒng)調用
而只要是系統(tǒng)調用就可能存在內核空間地址和用戶空間地址切換的問題,這是操作系統(tǒng)為了保護系統(tǒng)本身的運行安全,將內核程序運行使用的內存空間和用戶程序運行使用內存空間進行隔離造成的。這樣可以保護內核程序運行的安全。雖然如此,但也必然存在數(shù)據(jù)可能需要從內核空間向用戶空間復制的問題。
如果遇到非常耗時的操作,如磁盤I/O,數(shù)據(jù)從磁盤復制到內核空間,然后又從內核空間復制到用戶空間,將會非常緩慢。這時操作系統(tǒng)為了加速I/O訪問,在內核空間使用緩存機制,即將從磁盤讀取的文件按照一定的組織方式進行緩存,如果用戶程序訪問的是同一段磁盤地址的空間數(shù)據(jù),那么操作系統(tǒng)將從內核緩存中直接取出返回給用戶程序,這樣可以減小I/O的響應時間。
幾種訪問文件的方式
1.標準訪問文件的方式
當應用程序調用read()接口時,操作系統(tǒng)檢查在內核的高速緩存中有沒有需要的數(shù)據(jù),如果有,則從緩存中返回,如果沒有,則從磁盤中讀取,然后緩存在操作系統(tǒng)的緩存中。在調用write()接口時,應用程序將數(shù)據(jù)從用戶地址空間復制到內核地址空間的緩存中。這時對于用戶程序來說寫操作就已經完成,至于什么時候再寫到磁盤中由操作系統(tǒng)決定,除非顯式地調用sync同步命令。 image
2.直接I/O的方式
這種方式是指,應用程序直接訪問磁盤數(shù)據(jù),而不經過操作系統(tǒng)內核數(shù)據(jù)緩沖區(qū),這樣做是為了減少一次從內核空間到用戶空間的數(shù)據(jù)復制。這種訪問文件的方式通常是在對數(shù)據(jù)的緩存管理有應用程序實現(xiàn)的數(shù)據(jù)庫管理系統(tǒng)中。在數(shù)據(jù)庫管理系統(tǒng)中,系統(tǒng)明確地知道應該緩存哪些數(shù)據(jù),應該失效哪些數(shù)據(jù),還可以對一些熱點數(shù)據(jù)做預加載,提前將熱點數(shù)據(jù)加載到內存,可以加速數(shù)據(jù)的訪問效率。在這些情況下,操作系統(tǒng)并不知道哪些是熱點數(shù)據(jù),哪些數(shù)據(jù)可能只訪問一次就不會再訪問了,操作系統(tǒng)只是簡單地緩存最近一次從磁盤讀取的數(shù)據(jù),所以它做不到這樣的數(shù)據(jù)緩存。
但直接I/O也有負面影響,如果訪問的數(shù)據(jù)不在應用程序緩存中,那么每次數(shù)據(jù)都要從磁盤進行加載,這種直接加載會很慢。通常直接I/O與異步I/O結合使用會很好。
3.同步訪問文件的方式
數(shù)據(jù)的讀取和寫入都是同步操作的,它與標準訪問文件的方式不同在于,只有當數(shù)據(jù)被成功寫入到磁盤時才返回給應用程序成功的標志。應用在對數(shù)據(jù)安全性要求較高的場合,而且這種操作方式的硬件都是定制的。
4.異步訪問文件的方式
當訪問數(shù)據(jù)的線程發(fā)出請求后,線程會處理其它事情,不是阻塞等待,當請求的數(shù)據(jù)返回后繼續(xù)處理下面的操作。
5.內存映射方式
內存映射的方式是指操作系統(tǒng)將內存中的某一塊區(qū)域與磁盤中的文件關聯(lián)起來,當要訪問內存中的一段數(shù)據(jù)是,轉換為訪問文件的某一段數(shù)據(jù)。這也是為了減少數(shù)據(jù)從內核空間緩存到用戶空間緩存的復制操作,因為這兩個空間的數(shù)據(jù)是共享的。
Java訪問磁盤文件
上面是基本的Java I/O的操作接口,這些接口主要定義了如何操作數(shù)據(jù),和操作數(shù)據(jù)結構的字節(jié)和字符的兩種方式。還有一個關鍵問題就是數(shù)據(jù)寫到何處。其中一個主要方式就是將數(shù)據(jù)持久化到物理磁盤。數(shù)據(jù)在磁盤中的唯一最小描述就是文件,即上層應用程序只能通過文件來操作磁盤上的數(shù)據(jù),文件也是操作系統(tǒng)和磁盤驅動器交互的最小單元。
在Java中,F(xiàn)ile對象并不代表一個真實存在的文件對象,當你指定一個路徑描述符時,它就會返回一個代表這個路徑的虛擬對象,這可能是一個文件,也可能是一個目錄。這樣設計,是因為通常我們并不關心這個文件是否真實存在,而是關心對這個文件到底如何操作。只有在真正讀取文件時,才會檢查這個文件存不存在。
例如,F(xiàn)ileInputStream類都是操作一個文件的接口,注意到在創(chuàng)建一個FileInputStream對象時會創(chuàng)建一個FileDescriptor對象,其實這個對象就是真正代表一個存在的文件對象的描述。當我們在操作一個文件對象時可以通過getFD()方法獲取真正操作的與底層操作系統(tǒng)相關聯(lián)的文件描述。例如,可以調用FileDescriptor.sync()方法將操作系統(tǒng)緩存中的數(shù)據(jù)強制刷新到物理磁盤中。
image
同步、異步、阻塞、非阻塞
同步與異步:描述的是用戶線程與內核的交互方式,同步指用戶線程發(fā)起IO請求后需要等待或者輪詢內核IO操作完成后才能繼續(xù)執(zhí)行;而異步是指用戶線程發(fā)起IO請求后仍然繼續(xù)執(zhí)行,當內核IO操作完成后會通知用戶線程,或者調用用戶線程注冊的回調函數(shù)。
阻塞與非阻塞:描述是用戶線程調用內核IO操作的方式,阻塞是指IO操作需要徹底完成后才返回到用戶空間;而非阻塞是指IO操作被調用后立即返回給用戶一個狀態(tài)值,無需等到IO操作徹底完成。