簡介:
Raphael 是西瓜視頻基礎技術團隊開發的一款 native 內存泄漏檢測工具,廣泛用于字節跳動旗下各大 App 的 native 內存泄漏治理,收益顯著。工具現已開源,本文將通過原理、方案和實踐來剖析 Raphael 的相關細節。
背景
Android 平臺上的內存問題一直是性能優化和穩定性治理的焦點和痛點,Java 堆內存因為有比較成熟的工具和方法論,加上 hprof 快照作為補充,定位和治理都很方便。而 native 內存問題一直缺乏穩定、高效的工具,僅有的 malloc debug,不僅性能和穩定性難以滿足需要,還存在 Android 版本兼容的問題。
現狀事實上,native內存泄漏治理一直不乏優秀的工具,已知的可用于調查 native
內存泄漏問題的工具主要有:LeakTracer、MTrace、MemWatch、Valgrind-memcheck、TCMalloc、LeakSanitizer等。
但由于 Android 平臺的特殊性,這些工具要么不兼容,要么接入成本過高,很難在 Android
平臺上落地。這些工具的原理基本都是:先代理內存分配/釋放相關的函數(如:malloc/calloc/realloc/memalign/free),再通過unwind 回溯調用堆棧,最后借助緩存管理過濾出未釋放的內存分配記錄。
因此,這些工具的主要差異也就體現在代理實現、?;厮莺途彺婀芾砣齻€方面。
根據這些工具代理實現的差異,大致可以分為hook 和 LD_PRELOAD 兩大類,典型的如 malloc debug [5] 和 LeakTracer。
malloc debug:
malloc debug 是 Android 系統自帶的內存調試工具(官方 Native 內存調試 有相關介紹),雖然沒有額外的接入代碼,但開啟方式和核心功能等都受 Android 版本限制。
我們在線下嘗試使用 malloc debug 監控西瓜視頻 App(配置 wrap.sh)時發現,正常啟動時間小于 1s 的機型(Pixel 2 & Android 10),其冷啟動時間被拉長到了 11s+。而且在正常使用過程中滑動時的卡頓感非常明顯,頁面切換時耗時難以接受,監控過程中應用的使用體驗極差。不僅如此,西瓜視頻在 malloc debug 監控過程中還會遇到必現的?;厮?crash(堆棧如下,《libunwind llvm 編年史》[8] 有相關分析)。
LeakTracer:
是另一個比較知名的內存泄漏監控工具,其原理是:通過 LD_PRELOAD 機制搶先加載一個定義了
malloc/calloc/realloc/memalign/free 等同名函數的代理庫,這樣就全局代理了應用層內存的分配和釋放,通過unwind 回溯調用棧并過濾出疑似的內存泄漏信息。Android 平臺上的 LD_PRELOAD 是被嚴格限制的,因為其沒有獨立的unwind 實現,依賴系統的 unwind 能力,也會遇到 malloc debug 遇到的棧幀兼容問題;
如果把 LeakTracer集成到目標 so 里通過 override 方式實現代理,只能攔截到本 so 里顯式的內存分配/釋放,無法攔截到其他 so 和跨 so調用的內存分配/釋放。通過 native 插樁的方式也是如此,只能監控局部單純的內存泄漏,無法全局監控內存使用。
=== 綜合以上分析和接入體驗,我們不難發現,這些內存泄漏監控工具在 Android 平臺上實際接入時基本都存在以下三個比較典型的問題 ===
流程繁瑣:需要配置 wrap.sh/root permission/setprop 等,受 Android 版本限制
兼容問題:unwind 庫存在嚴重的兼容性問題,libunwind_llvm 無法正確回溯 GNU 編譯的棧幀
性能問題:官方的 malloc debug 性能數據是損失 10 倍以上,實測西瓜開啟后在中高端機上不可用
我們的需求:
西瓜視頻App 是一個匯集了視頻播放、特效拍攝、視頻剪輯輯、P2P 加速等 native 代碼非常多的中大型應用,每個 native代碼相關的模塊背后都有一個專業團隊在高速迭代,加上日人均使用時長超過 100 分鐘的影響,西瓜視頻 App 的 native內存問題治理難度非常大。事實上,單純的內存泄漏問題相對較少,更多的是因為業務邏輯不合理帶來的內存使用問題,需要工具滲透到 App
運行的過程中進行監控,無形中提高了對工具性能和穩定性的要求。線上native 內存問題基本都是以虛擬內存觸頂的形式暴露出來的。在西瓜視頻 App里,虛擬內存的消耗除了上述幾大模塊外,還有其他幾個消耗大戶,如線程、webview、Flutter、硬件加速、顯存等。
事實上,malloc/calloc/realloc/memalign,等相對于 mmap/mmap64直接分配出的內存在整個虛擬內存空間中通常占比比較小。因為內存問題通常以虛擬內存耗盡的形式表現出來,只有盡可能多的收集各種內存消耗來無限逼近虛擬內存上限,才能準確找出虛擬內存耗盡的原因。
因此,像malloc debug 這樣只監控 malloc/calloc/realloc/memalign/free 等根本無法滿足內存治理需要,覆蓋mmap/mmap64/munmap 等盡可能多的內存分配形式是監控工具必須要做的。
綜合上面的分析可以得出,西瓜視頻 App 乃至整個字節跳動旗下其他 App, 對于一個通用的 native 內存泄漏監控工具的訴求主要有以下幾個方面:
接入層面:不依賴 Android 版本,無需 root,對業務滲透盡可能低
穩定性:不存在影響業務的穩定性問題,可以滿足線上使用的訴求
性能層面:沒有明顯的性能問題,達到可線上使用的標準
監控范圍:不局限于 malloc/calloc/realloc/memalign/free,至少還能覆蓋 mmap/mmap64/munmap
Raphael 核心設計:
通過前面的分析可以知道,一個完整的 native 內存泄漏監控工具主要包含三部分:代理實現、?;厮莺途彺婀芾?。
代理實現是解決 Android 平臺上接入問題的關鍵,?;厮菔切阅芎头€定性的核心,緩存邏輯在一定程度上也會直接影響性能和穩定性。接下來我們會從四個方面介紹 Raphael的核心設計。
代理實現, 鑒于wrap.sh 和 LD_PRELOAD 在 Android 平臺上不具有通用性,首先被排除。又因 malloc hook 只能代理malloc/calloc/realloc/free,無法覆蓋 mmap/mmap64/munmap,也被放棄。但受 malloc hook實現方式的啟發,借助于 inline hook / PLT hook 工具我們可以實現同樣的代理效果,這其中比較有代表性的工具主要有
Android-Inline-Hook[3] 和 xHook[1]。
xHook 是比較優秀的 PLT hook 工具代表,其穩定性可以達到上線標準。因其實現依賴正則,同時 hook 的 so 或函數比較多時,hook 耗時會比較明顯。此外,其原生實現只能 hook 當前已經加載的 so,對于未加載的沒做特殊處理,如果用來做長時間的進程級監控,需要解決增量 so hook 問題。不過這種 hook 方式非常適合做 so 定向監控。
與PLT hook 原理不同,inline hook 則是在目標函數的頭部直接插入跳轉指令,其 hook 的是最終的函數實現,不存在增量 sohook 問題,hook 效率高效直接。但 inline hook 在 hook 那些可能正在執行的函數后,需要掛起相關線程進行指令修正,這個是inline hook 的痛點,現有 hook 實現很多沒有做指令修復,或者在指令修復時或多或少都存在一些問題。
Raphael
在早期的驗證版本里采用 xHook 來實現代理接入。后續為了實現長時間進程級監控,以覆蓋更多的業務場景,Raphael 又通過Android-Inline-Hook 解決增量 so hook 問題,通過 xHook 實現定向監控。為了進一步提升工具的性能和穩定性,Raphael 內部最新版本已切換到了 bytehook(字節跳動自研的 PLT hook 工具,可自動處理增量 so hook 問題)。
?;厮?/p>
定位一個對象或者一段內存通??梢酝ㄟ^引用/依賴關系,也可以通過創建/分配時的堆棧。
Java堆內存因為有明確的組織形式和清晰的依賴關系,可以通過依賴關系靜態分析內存泄漏問題。但 native 堆內存依賴/引用比較隱晦,也沒有 Java堆內存那樣明確的組織格式,無法通過依賴/引用關系進行靜態分析,只能通過分配時的堆棧來輔助定位。棧回溯(unwind)是 native層獲取調用堆棧的通用方式,是 native內存泄漏監控工具不可或缺的核心,同時也是工具性能和穩定性的瓶頸所在。接下來本文將從?;厮莨ぞ哌x取、限制?;厮蓊l次、減少無用棧回溯三個方面介紹
Raphael 在?;厮萆纤龅墓ぷ?。
棧回溯工具選取Android平臺上常用的 32 位?;厮輲熘饕校簂ibunwind_llvm、libunwind (nongnu)、libgcc_s、libudf、libbacktrace、libunwindstack等,實踐證實這些工具或多或少都存在一些問題,以下是我們基于三個主流的?;厮輲熳龅暮唵螌Ρ确治觯ㄆ脚_:Pixel 2 & Android 10,性能:Demo 里統計 16 層棧幀回溯的總耗時;兼容性:字節跳動旗下多個應用長時間的優化治理實踐)
?;厮萆婕暗降臇|西比較多,想要自己短時間內實現一個在穩定性、回溯性能、回溯成功率等方面都表現優異的 32 位棧回溯工具難度非常大。為了快速驗證并解決實際機問題,Raphael 在早期版本里采用的是 libunwind_llvm,隨后切換到 libunwind_llvm & libunwind (nongnu),通過 libunwind_llvm 保證回溯性能,在回溯深度低于 2 層時切換到 libunwind (nongnu),以保證回溯成功率。最新版本里則采用的是 libudf,兼具了性能和回溯成功率。相對而言,64 位下基于 FP 的棧回溯實現性能和穩定性基本都能滿足需求,這里不做過多介紹。Rapahel 同時也在設計時做了充分的擴展考慮,可以輕松切換到其他更優秀的?;厮輰崿F。
限制?;厮蓊l次, 即便是libudf 實現,其在 demo 里回溯 16 層棧幀的平均耗時也需要 0.6ms,監控工具實際運行時對 App性能的影響是很明顯的。提升監控性能的途徑除了直接優化?;厮菪阅芡?,減少回溯頻次也是十分有效的手段。我們在西瓜視頻 App的優化治理實踐中發現,多數場景小于 1024 byte 的內存分配其頻率約占 70% 以上,但線上遇到的 native內存觸頂問題,卻很少是由小內存泄漏引發的,監控小內存泄漏對于解決線上 native 內存觸頂問題沒有實質效果。即便真的是由小內存引發的,這個需要高頻和必現的場景才能達到,這類問題通常在線下單測(定向監控)場景是完全可以覆蓋到的。
基于此,Raphael 通過設定內存閾值來控制?;厮蓊l次,可以大幅降低?;厮莸男阅軗p耗。
減少無用?;厮?/p>
受限于代理流程和?;厮輰崿F機制,從代理函數入口到回溯開始的路徑上會存在幾層跟分配堆棧無關的函數調用,這幾層調用最終會體現在最后回溯成功的堆棧上(下圖的紅色部分),每次內存分配都回溯這幾層無用的調用鏈是十分損耗性能的。解決這種問題的直觀方法就是減少甚至完全規避這種無關的棧回溯,體現在代碼層面就是減少代理入口到回溯開啟函數之間的調用層級。
inline是一種簡單直接的實現方式,也可以直接在代理入口處提前構建回溯的 context 數據。
緩存管理
緩存管理作為 native 內存監控的重要一環,對整個監控工具性能的影響至關重要。以 malloc debug 和LeakTracer為例,它們都是通過分配后的內存地址作為 key 來計算 hash 后散列存儲的,并通過一個全局鎖來同步緩存更新的時序。兩者不同的是,malloc debug 會通過堆棧聚合調用鏈完全相同的內存分配記錄,其緩存的存儲單元通過 malloc 動態分配;而 LeakTracer 則不會根據堆棧聚合,其存儲單元會預先分配一部分,緩存不足時也會動態申請。
通過以上分析和實測可以發現,malloc debug 的實際性能比LeakTracer 低很多,原因主要體現在堆棧聚合和緩存動態分配上。
image
對比
malloc debug 和 LeakTracer 的源碼也可以發現:運行時的堆棧聚合是完全沒有必要的;如果限制內存監控的閾值,緩存空間和緩存單元的上限都可以控制在一定范圍內的,不需要動態申請,可以減少動態分配的性能損耗;此外,由于 native 內存分配和釋放頻率比較高,全局鎖一定程序上會影響整體性能,通過 key 計算 hash 后再散列存儲時不需要全局鎖。
Raphael
是預先分配固定大小的緩存空間,除了發生內存觸頂導致的 crash 外,緩存單元提前耗完也認為存在內存泄漏問題。這主要是因為:對于 32 位進程,其虛擬內存的上限通常是 4G,正常運行時相對比較容易觸達上限,而 64 位進程的虛擬地址空間非常大,實際很難遇到虛擬內存觸頂的 case,但遇到物理內存不足的概率則要大很多,這與 32 位進程基本相反。通過控制 vmPeak 閾值和緩存單元余量可以有效捕捉到內存泄漏數據,最終實現穩定可靠的全自動內存泄漏監控及消費流程
監控范圍
通過前面的分析可以知道,只監控 malloc/calloc/realloc/memalign/free 是無法滿足治理需求的,這主要是因為 malloc/calloc/realloc/memalign/free 等分配出的內存通常在整個虛擬內存空間里占比較小,常見的內存消耗大戶 Thread、webview、Flutter、硬件加速、顯存等,都不是通過這些函數分配出的。為了能夠對 Android 平臺上的 native 內存觸頂問題精準歸因,監控需要無限逼近虛擬內存的上限,這就需要監控盡可能多的內存分配形式。
Android
上的內存操作主要是 malloc/calloc/realloc/memalign/free 和 mmap/mmap64/munmap,同監控
malloc/calloc/realloc/memalign/free 相比,監控 mmap/mmap64/munmap 有兩點不同:一個是線程棧的釋放問題,雖然創建線程時是通過 mmap/mmap64 分配的棧內存,但棧內存的釋放并不一定是通過顯式調用 munmap 實現的;另一個是監控重入問題,當通過 malloc/calloc/realloc/memalign 等分配大內存時,底層通常是通過 mmap/mmap64 實現的,兩類接口同時監控時會存在重入問題。
棧內存釋放
線程的棧內存又分為信號棧和執行棧,信號棧在調用*void pthread_exit(void return_value)接口時會通過 munmap 即刻釋放,而執行棧的釋放則有兩種形式:
void pthread_exit(voidreturn_value) 函數體里,當線程狀態為 THREAD_DETACHED 時會直接通過 void _exit_with_stack_teardown(voidstack, size_t sz) 釋放
int pthread_join(pthread_t t, void** return_value) 里通過pthread_internal_remove_and_free,最終在pthread_internal_free 里通過 munmap 釋放
綜上,最終通過 munmap 釋放的內存都可以被監控到,而通過_exit_with_stack_teardown 釋放的內存則無法攔截到。我們針對這種情況做了特殊處理:在 Raphael 里代理攔截了 void pthread_exit(void *),并判斷此時線程狀態是否為 THREAD_DETACHED,如果是則在監控里直接移除相關記錄,否則不移除。
重入問題
下圖是一個典型的重入現場,其上層的 malloc 函數最終調用到了 mmap 函數,同時監控兩類內存接口時就會遇到此類問題。重入問題帶來的一個挑戰是緩存如何管理,同一個緩存里只能維護一個記錄,維護兩個記錄的邏輯和性能過于復雜。此外,從 malloc 到 mmap 的堆棧是固定的,這幾層堆棧對分析內存泄漏完全沒用,因為這個時候關注的是 malloc 之上的堆棧。
解決重入問題的方案很直接,在檢測到 mmap/mmap64 之上有 malloc/calloc/realloc 等棧幀時,忽略本次分配。這樣不僅解決了重入問題,也避免了不必要的棧回溯。因為 Android 平臺不支持 thread local storage(TLS),只能通過 pthread_setspecific 和 pthread_getspecific 實現。
綜合評估:
功能相對于 malloc , debug 和 LeakTracer,Raphael 不僅支持 malloc/calloc/realloc/memalign/free,也支持監控 mmap/mmap64/munmap 等,使監控范圍擴展到了線程、webview、Flutter、顯存等,基本完全覆蓋了 Android 平臺上的 native 內存使用場景
性能
Android 平臺上的 native 內存泄漏檢測通常都是在程序運行過程中進行的,?;厮莺途彺婀芾頃牟糠?CPU 和內存,帶來一定的性能損失。Raphael 可配置的監控能力有很大的伸縮性,性能影響可以限制在可接受范圍內,以下數據基于西瓜視頻 App 32 位模式評測(中高端機型和 64 位下的性能更高):
CPU:32 位模式 & ≥1024 的監控閾值下,在低端機上 CPU 消耗< 3%
內存:32 位模式下默認會有約 16M 的虛擬內存消耗
幀率:32 位模式 & ≥1024 的監控閾值下,低端機上幀率沒有明顯變化
穩定性
已開源的版本是基于開源 inline hook 實現的,在部分 Android 6 機型上存在卡死問題,除此之外暫未發現其他穩定性問題。此外,字節跳動這邊早期的治理實踐集中在線下,并基于 Raphael 建設完善了線下的防治體系,更為穩定的版本可以滿足線上的監控需求,我們會在后續迭代開源。
治理實踐
Raphael 在字節跳動內部使用非常廣泛,是字節跳動 native 協會指定的 native 內存泄漏檢測工具。在治理實踐中,Raphael 覆蓋了幾乎所有的 native 內存使用場景,輔助解決了大量的 native 內存泄漏和內存使用不合理的問題。接下來通過四個典型的案例簡單介紹下 Raphael 的監控能力和基于 Raphael 的數據分析方法(應用自身的,Java 層的,webview 的,系統層的)
案例 1
下圖是西瓜視頻里兩個比較典型的 native 內存問題現場,既有嚴格意義上的內存泄漏(用完之后未釋放),也有更為廣泛的內存不合理使用的問題(短暫泄漏、局部場景問題、上層業務邏輯問題等)。針對內存泄漏問題,在明確了相關內存的生命周期之后,可以相對輕松的快速定位到。對于內存使用不合理的問題,則需要盡可能多的搜集未釋放的內存,來綜合評估影響。
早期在分析數據時,我們也會通過maps 來驗證 Raphael 的數據。通常通過分析 maps 可以大致知道內存觸頂的原因,下圖是一個典型的運行時通過 malloc/calloc/realloc/memalign 和 mmap/mmap64 分配的內存過多導致的 OOM 現場。
image
案例 2
下圖是字節跳動內部一個業務遇到的 native 內存問題現場,未接入 Raphael 前雖能輕松復現 native 內存增長的問題,但無法定位內存增長的原因。在接入 Raphael 后,雖然攔截到的內存并不多,但問題暴露的非常明顯。排名第一個的堆棧是 Java 層創建 bitmap 對象時調用到 native 層堆棧(Android 8 以后 Bitmap 的數據是存儲在 native 層),該問題的調查最終轉移到了 Java 層。
基于以上分析,我們可以斷定 Java 層的堆內存里一定存在大量的 Bitmap 對象。因為該問題是線下可復現的,我們可以很容易的通過 Java 堆內存快照驗證并定位到問題原因(如下圖所示)。如果是線上,我們需要抓取異?,F場的快照才能最終定位,這也正是西瓜視頻穩定性治理體系建設一:Tailor 原理及實踐里所提到的通用異常數據搜集建設。
案例 3
一直以來Android 設備上 webview 消耗的內存很少被重視,隨著前端業務場景增多,webview 導致的內存問題也越來越明顯、越來越頻繁。下圖是 Raphael 在西瓜視頻 App 里監控到的一個前端活動頁導致的內存問題現場。由于系統webview自身的原因,工具無法回溯出完整的調用棧,無法直觀定位到問題原因。最終我們通過定向分析內存數據,定位到這些內存基本都是前端頁面里緩存的圖片資源,在對該頁面的圖片緩存策略進行優化之后,相關的內存觸頂的異常大幅降低。
案例 4
下圖是 Android 系統上長期存在的一類 Camera 內存泄漏現場。通過分析源碼可知,Camera 在拍攝過程中會在 native 層持續構造 CameraMetadata 實例,而每個 CameraMetadata 對象都會指向一塊不小的 native 內存,這塊 native 內存的釋放依賴 Java 層的 CameraMetadataNative 對象執行 finalize 函數。這個邏輯最終導致這部分 native 內存的回收間接依賴 Java 層的 GC。如果一段時間內 Java 層沒有 GC ,這部分 native 內存就會因為沒有及時釋放而堆積,進而在觸頂后引發各種因 native 內存不足而導致的異常。《Android Camera 內存問題剖析》里有詳細的分析過程,《ART 視角 | 如何讓 GC 同步回收 native 內存》針對此類問題也同步給出了方案,通過溝通 Android 團隊表示會在后續版本里徹底修復此問題。
image
后續規劃
Native 內存泄漏監控的原理相對簡單,但想要做到完美通用卻很困難,最主要的考驗當屬性能和穩定性問題,例如 32 位棧回溯的性能和穩定性、緩存管理的性能等。前期我們在調研和開發 Raphael
時,基于快速落地和解決緊迫問題的目的,復用了大量第三方代碼,并簡化了很多邏輯。經過長期的治理實踐,工具自身也暴露出一些問題和后續可以優化的方向。
就代理邏輯而言,Android-Inline-Hook 和 And64InlineHook 雖然都是比較優秀的 inline hook 工具,但實際使用時仍然存在兼容和卡死的問題。雖然 xHook 在兼容性和性能上都可以達到上線標準,但不具有通用性,很難將 native 內存泄漏監控擴展到其他有上限的資源上(如 JNI Reference Table)。我們也在調研優化 inline hook,探索更為穩定高效的 hook 方案。
棧回溯和緩存管理是native 內存泄漏監控性能和穩定性的瓶頸。相對而言,基于 FP 的 64 位?;厮莘桨敢呀浀搅藰O致,但 32位下目前仍沒有完美理想的方案。在 32 位下,Raphael 通過限制?;厮萆疃群涂刂票O控范圍來規避頻繁?;厮輲淼男阅苡绊?,雖然可以大幅提升性能,但也存在漏報問題。因此,32 位?;厮菪阅芤彩俏覀兒罄m的優化方向。此外,Raphael 已開源的版本其緩存管理仍然是通過全局鎖來實現同步的,會有一定的性能損失,這個我們也會在后續的開源迭代里同步最新的優化。
眾所周知,物理內存、虛擬內存、Thread、FD、JNI Reference Table 等都是典型的有上限的資源,不合理使用都會造成常規手段難以調查的穩定性問題。顯而易見,內存泄漏的監控邏輯,同樣適用于其他這些有上限的資源。甚至于那些雖然沒有明確上限的(如 Binder、流量、耗時等),我們也可以構造出相應的上限來實現監控和溯源?;?Raphael 擴展其他的監控能力是我們后續要高優完善的。
總結
Android native 內存泄漏話題由來已久,在此之前業界一直沒有穩定可靠的工具可用,得益于 AOSP
和其他優秀的開源項目(Android-Inline-Hook、And64InlineHook、xHook、xDL),使得我們有機會進行相關的嘗試。Raphael 是西瓜視頻基礎技術團隊的初步探索和嘗試,在字節跳動內部眾多 App(如西瓜、抖音、頭條)長期的治理實踐中,不僅解決了大量疑難問題,也進一步完善了工具和方法論。
雖然基于Raphael 的 native 內存泄漏監控方案目前已經足夠成熟和穩定,但其監控過程畢竟滲透到了 App 的運行過程,會有一定程度的性能損失和穩定性風險。我們倡導的方案是基于此來建設完善線下的內存泄漏防治體系,謹慎帶到線上。由于內部迭代的 Raphael 版本比較多,且涉及其他未開源的項目,本次開源我們只能選擇其中一個穩定可用的版本,其他優化會在后續逐步開源。
Raphael 只是邁開了其中的一小步,方案還有很大的優化空間。開源不是終點,我們希望集思廣益、共同探索完善,在 Android 穩定性治理上走的更快更遠。