記 os_object_release Crash 排查

Crash 信息

線上存在一個持續很久的 Crash,由于沒有明確業務棧且量級不算大,讓它成為了老賴之一,Crash 棧是這樣的:

Thread 55
0  libdispatch.dylib              0x0000000188a8cf8c __os_object_release_internal_n +  80
1  libdispatch.dylib              0x0000000188a96eec __dispatch_lane_invoke +  1152
2  libdispatch.dylib              0x0000000188aa14bc __dispatch_workloop_worker_thread +  764
3  libsystem_pthread.dylib        0x00000001d4bde7a4 __pthread_wqthread +  276
——-
Exception Type: SIGTRAP 
Exception Codes: fault addr: 0x0000000188a8cf8c
Crashed Thread: 55 

Thread 55 crashed with ARM Thread State (64-bit):
    x0:0x0000000281a86580    x1:0x0000000000000002

0x188a8a000 - 0x188acefff  arm64 <ff408738d75b3061ad994a929c0162d2> libdispatch.dylib

由于不能明確是哪個業務代碼引起的,所以先確認 Crash 的對象是哪個類型。

確認目標對象類型

Crash 日志看不出來目標對象類型,只知道是一個 SIGTRAP,應該是 GCD 調用__builtin_trap()觸發軟中斷結束進程 ,嘗試從源碼入手,頂層函數邏輯是這樣的:

DISPATCH_NOINLINE
void _os_object_release_internal_n(_os_object_t obj, uint16_t n) {
    return _os_object_release_internal_n_inline(obj, n);
}

DISPATCH_ALWAYS_INLINE
static inline void _os_object_release_internal_n_inline(_os_object_t obj, int n)
{
    int ref_cnt = _os_object_refcnt_sub(obj, n);
    if (likely(ref_cnt >= 0)) {
        return;
    }
    if (unlikely(ref_cnt < -1)) {
        _OS_OBJECT_CLIENT_CRASH("Over-release of an object");
    }
    // _os_object_refcnt_dispose_barrier() is in _os_object_dispose()
    return _os_object_dispose(obj);
}

_OS_OBJECT_CLIENT_CRASH()就是調用的__builtin_trap(),那確認就是一個os_object_t對象的 Over-Release 問題了。os_object_t定義是這樣的:

typedef struct _os_object_s {
    _OS_OBJECT_HEADER(
    const _os_object_vtable_s *os_obj_isa,
    os_obj_ref_cnt,
    os_obj_xref_cnt);
} _os_object_s;
typedef struct _os_object_s *_os_object_t;

這就是 GCD 類的結構體定義,和 NSObject 類似的內存布局,但os_object_t衍生類眾多還需明確是哪一個。

繼續看上一個函數_dispatch_lane_invoke,發現它的代碼量很大,且由于 GCD 大量的 inline 函數,很難確定是哪里調用了_os_object_release_internal_n。這個時候就要換一種方式,直接反匯編就能快速確認。

使用和 Crash 棧相同系統設備切 release 環境運行,但有點奇怪的是反匯編代碼和_dispatch_lane_invoke偏移對不上。那就用 hopper 直接打開 uuid 對應的 libdispatch.dylib 可執行文件吧,找到偏移處:

接下來就要確認bl _os_object_release_internal_nx0寄存器值怎么來的,這個函數一千多行指令分析工作量太大,但這里可以明確的是這個函數只有這一處調用 _os_object_release_internal_n

那又回到 GCD 源碼,估計就是尾部的一個調用了(代碼有修改,去除無用代碼和 inline 調用):

_dispatch_lane_invoke(…) {
    dispatch_queue_t dq = dqu._dq;
    …
    return _os_object_release_internal_n(dou._os_obj, 2);
}

翻了一下各個 Crash 日志x1寄存器都是 2 可以對得上。同時運行時反匯編指令雖然對不上,但對比找到同樣邏輯的匯編代碼段,br到這個偏移也能確認x0就是dispatch_queue_t。

定位 Crash 場景

既然產生 Over-Release 的對象是 dispatch_queue_t,那推測就是業務代碼使用時存在內存管理問題,最蠢的方式就是找到所有的dispatch_queue_create()調用排查各個場景是否有問題。

不過在這之前可以多看一下 Crash 日志,調用棧有dispatch_workloop_worker_thread可以推測當前時機是業務block加入了 GCD 隊列,現在已經開始調度了。舉個例子,如果在dispatch_async(queue, block)時 queue 就已經釋放了,那 Crash 棧就會有dispatch_async,說明在調用dispatch_async(queue, block)時 queue 是正常的,在調度過程要結束時 queue 才被其它線程釋放,立即走到_dispatch_lane_invoke的尾調用時才觸發了 Over-Release。

那其它線程引起 queue 釋放的時機和當前 Crash 時機應該很近,也就是說其它線程此時的堆棧大概率有釋放這個dispatch_queue_t的調用,排查后發現基本上在另外一個線程都有這么一段調用棧:

9  libdispatch.dylib              0x0000000188a8dfc0 -[OS_dispatch_queue _xref_dispose] +  56
10 AnyProject                       0x0000000107c9b724 -[AnySDKClass dealloc] +  164
11 AnyProject                        0x0000000107cbc10c -[AnySDKClass .cxx_destruct] +  76

那大概率問題就出在AnySDKClass,運行時找到其dealloc方法:

…
    0x107ddab88 <+124>: bl     0x109994540               ; symbol stub for: dispatch_sync
    0x107ddab8c <+128>: add    x0, x19, #0x10            ; =0x10 
    0x107ddab90 <+132>: mov    x1, #0x0
    0x107ddab94 <+136>: bl     0x10999589c               ; symbol stub for: objc_storeWeak
    0x107ddab98 <+140>: ldr    x0, [x19, #0x18]
    0x107ddab9c <+144>: str    xzr, [x19, #0x18]
    0x107ddaba0 <+148>: bl     0x1099957e8               ; symbol stub for: objc_release
    0x107ddaba4 <+152>: ldr    x0, [x19, #0x58]
    0x107ddaba8 <+156>: str    xzr, [x19, #0x58]
    0x107ddabac <+160>: bl     0x1099957e8               ; symbol stub for: objc_release
…

斷點到對應偏移0x107ddabac處,找到這個 queue 的類型:

br set -a 0x107ddabac
po $x0
<OS_dispatch_queue_serial: anyName[0x2809e2900] = { xref = 1, ref = 1, sref = 1, target = com.apple.root.default-qos.overcommit[0x12e435100], width = 0x1, state = 0x001ffe2000000000, in-flight = 0}>

那剩下的工作就是找到對應 SDK 源碼,分析出這個 serial queue 的內存管理問題了。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,533評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,055評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 175,365評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,561評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,346評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,889評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,978評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,118評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,637評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,558評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,739評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,246評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,980評論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,362評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,619評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,347評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,702評論 2 370

推薦閱讀更多精彩內容

  • 1.ios高性能編程 (1).內層 最小的內層平均值和峰值(2).耗電量 高效的算法和數據結構(3).初始化時...
    歐辰_OSR閱讀 29,463評論 8 265
  • OC語言基礎 1.類與對象 類方法 OC的類方法只有2種:靜態方法和實例方法兩種 在OC中,只要方法聲明在@int...
    奇異果好補閱讀 4,300評論 0 11
  • 1.設計模式是什么? 你知道哪些設計模式,并簡要敘述?設計模式是一種編碼經驗,就是用比較成熟的邏輯去處理某一種類型...
    龍飝閱讀 2,172評論 0 12
  • Swift1> Swift和OC的區別1.1> Swift沒有地址/指針的概念1.2> 泛型1.3> 類型嚴謹 對...
    cosWriter閱讀 11,120評論 1 32
  • *面試心聲:其實這些題本人都沒怎么背,但是在上海 兩周半 面了大約10家 收到差不多3個offer,總結起來就是把...
    Dove_iOS閱讀 27,182評論 30 470