Java 文件拷貝的方式

三種方式文件拷貝的方式

  1. 通過阻塞流實現
public static void copyFileByStream(File source, File dest) throws
        IOException {
    try (InputStream is = new FileInputStream(source);
         OutputStream os = new FileOutputStream(dest);){
        byte[] buffer = new byte[1024];
        int length;
        while ((length = is.read(buffer)) > 0) {
            os.write(buffer, 0, length);
        }
    }
 }

優點是實現簡單,而且在實際使用中,簡單的場景下可能是最快的。

  1. 通過 transferTo/From 實現
public static void copyFileByChannel(File source, File dest) throws IOException {
    try (FileChannel sourceChannel = new FileInputStream(source).getChannel();
         FileChannel targetChannel = new FileOutputStream(dest).getChannel()){
        for (long count = sourceChannel.size() ;count>0 ;) {
             long transferred = sourceChannel.transferTo(
             sourceChannel.position(), count, targetChannel);            
             sourceChannel.position(sourceChannel.position() + transferred);
             count -= transferred;
        }
    }
 }

缺點是寫起來比 stream 復雜。優點是利用直接在內核態和操作,避免了在用戶態傳輸數據的消耗。理論上是最快的拷貝方式。

  1. 使用 Files.copy()

優點是使用最為簡潔,而且不只是文件流的拷貝。

拷貝實現機制分析

前面提到的三種拷貝方式,實現流程都是一樣的:從一個地方,復制一段數據到內存,再從內存中把這段數據輸出到另一個地方

唯一的細節不同處,就是數據在這個過程中需不需要經過用戶態空間。

  1. 當我們使用輸入輸出流時,實際上是進行了多次上下文切換,比如應用讀取數據時,現在內核態將數據從磁盤讀取到內核緩存,再切換到用戶態,將數據從內核緩存讀取到用戶緩存。流程圖如下:

顯然這種方式需要額外的開銷,會降低 IO 效率。

  1. 當我們使用 NIO transferTo 時,在 Linux 和 Unix 系統上,則會使用到零拷貝技術,即數據傳輸不需要經過用戶態,省去了上下文切換的開銷和不必要的內存拷貝,進而可能提高應用拷貝性能。而且,transferTo 還可以應用在 Socket 傳輸中,同樣可以享受這種機制帶來的性能和擴展性提高。

Files.copy() 源碼分析

前面提到,Java 標準庫直接給我們提供了文件拷貝的 API。他有三個重載版本:

從參數可以看出,這個方法不僅僅是只支持文件之間的操作,還可以在各種流中傳輸文件。

后兩種實現方式,從底層源碼可以看到,是直接利用阻塞 IO stream 配合一個 byte[] 數組作為緩沖區實現文件拷貝的。

    private static long copy(InputStream source, OutputStream sink)
        throws IOException
    {
        long nread = 0L;
        byte[] buf = new byte[BUFFER_SIZE];
        int n;
        while ((n = source.read(buf)) > 0) {
            sink.write(buf, 0, n);
            nread += n;
        }
        return nread;
    }

而第一種拷貝方式,則會先具體區分文件系統再進行處理:

public static Path copy(Path source, Path target, CopyOption... options)
    throws IOException
 {
    FileSystemProvider provider = provider(source);
    if (provider(target) == provider) {
        // same provider
        provider.copy(source, target, options);
    } else {
        // different providers
        CopyMoveHelper.copyToForeignTarget(source, target, options);
    }
    return target;
}

追蹤同類型文件系統中的拷貝,發現內部實現和公共 API 之間不是直接關聯的,NIO 部分甚至是定義為模板而不是 Java 源文件,在 build 過程中生成源碼,下面介紹下部分 JDK 代碼機制和如何繞過隱藏障礙。

  • 首先,直接跟蹤 FileSystemProvider,發現這是一個抽象類,根據注釋可以直接理解到,文件系統的實際邏輯存在于 JDK 的內部實現中,公共 API 其實是通過 ServiceLoader 機制加載一系列文件系統實現,然后提供服務。
  • 在 JDK 源碼中搜索 FileSystemProvider 的具體實現,可以定位到 sun/nio/fs,這里存放著具體平臺的部分特有文件系統邏輯。
  • 對于 Linux 下,省略掉一些細節,最后一步一步定位到 UnixFileSystemProvider -> UnixCopyFile.Transfer,可以看到這是一個本地方法。
  • 最終明確定位到 UnixCopyFile.c,其內部實現清楚說明這只是簡單的用戶態空間拷貝。

總結下來,可以知道,這個 JDK 提供的接口,其實只是簡單的本地技術實現的用戶態拷貝。

如何提高類似拷貝 IO 的性能

  1. 利用緩沖區,減少 IO 次數
  2. 使用 transferTo/From 機制,減少上下文切換和額外的 IO 操作。
  3. 減少不必要的轉換過程。比如編解碼、對象序列化和反序列化,比如操作文本文件或者網絡通信,如果不是過程中需要使用到文本信息,可以考慮直接傳輸二進制信息而不用將二進制信息轉換成字符串。

Direct Buffer 和垃圾收集

這里重點介紹兩種特別的 buffer。

  • DirectBuffer : 在 Buffer 的方法定義中,有一個 isDirect() 方法,返回當前方法是否是 Direct 類型。這是 Java 提供的堆外 Buffer。可以使用 allocateDirect 方法直接創建。
  • MappedByteBuffer : 它將文件按照指定大小直接映射為內存區域,當程序訪問這個內存區域時,將直接操作這塊文件數據,省去了將數據從內核空間向用戶空間傳輸的損耗。我們可以使用 FileChannel.map 創建 MappedByteBuffer,它本質上也是種 Direct Buffer。

在實際使用中,Java 會盡量對 Direct Buffer 僅作本地 IO 操作,對于很大數據量的 IO 密集型操作,可能會帶來很大的性能優勢,因為:

  • Direct Buffer 在生命周期內內存地址都不會再做改變,進而內核可以直接安全地對其訪問,很多 IO 操作會很高效。
  • Direct Buffer 避免了堆內對象需要的額外的維護工作,提高了效率。

但是,高效背后也是高成本。Direct Buffer 在創建和銷毀過程中,都會比一般的 Buffer 增加部分開銷,所以通常應該用于長期使用、數據量較大的場景。

Direct Buffer 因為不在堆上,所以 Xmx 參數對它無效,可以使用下面的代碼設置堆外內存的大小:

-XX:MaxDirectMemorySize=512M

從參數設置和內存問題排查來看,我們在設置 JVM 需要的內存時,如果用到了堆外內存,還應考慮堆外內存的開銷。而出現了 OOM 問題時,也應該考慮是否是堆外內存不夠的可能性。

對于 Direct Buffer 的回收,可以考慮:

  • 在應用程序中,顯式調用 System.gc() 來強制觸發。
  • 另一種思路是,在大量使用 Direct Buffer 的部分框架中,框架會自己在程序中調用釋放方法,Netty 就是這么做的。
  • 重復使用 Direct Buffer,而不是每次需要再創建,用完立刻銷毀。

跟蹤診斷 Direct Buffer 的內存占用的方法

在普通的垃圾收集日志中,并不包含 Direct Buffer 等信息,所以 Direct Buffer 的內存診斷是個比較頭疼的問題。在 java 8 以后,我們可以使用 Native Memory Tracking (NMT) 來診斷,在啟動程序時加上下面的參數可以激活 NMT,但是會導致 JVM 出現 5%~10% 的性能下降:

-XX:NativeMemoryTracking={summary|detail}

開啟 NMT 后,就可以通過下面的命令進行交互式對比:

// 打印 NMT 信息
jcmd <pid> VM.native_memory detail 

// 進行 baseline,以對比分配內存變化
jcmd <pid> VM.native_memory baseline

// 進行 baseline,以對比分配內存變化
jcmd <pid> VM.native_memory detail.diff
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,882評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,208評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,746評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,666評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,477評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,960評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,047評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,200評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,726評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,617評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,807評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,327評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,049評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,425評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,674評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,432評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,769評論 2 372

推薦閱讀更多精彩內容

  • 轉自JAVA IO 以及 NIO 理解 一段話總結:傳統io中從磁盤中中讀文件,并把文件通過網絡(socket)發...
    抓兔子的貓閱讀 1,354評論 0 4
  • 由于Netty,了解了一些異步IO的知識,JAVA里面NIO就是原來的IO的一個補充,本文主要記錄下在JAVA中I...
    騷的掉渣閱讀 698評論 0 8
  • 關于Mongodb的全面總結 MongoDB的內部構造《MongoDB The Definitive Guide》...
    中v中閱讀 31,985評論 2 89
  • p_23f3閱讀 124評論 0 0
  • 六月的風吹過了那片草原 六月的風吹過了那座高山 六月的風吹過了那片藍天 六月的風吹過了大海波瀾 六月的風吹來了荷塘...
    HONGYUNDANGTOU閱讀 400評論 10 8