今天又是熱鬧的一天。
凌晨五點(diǎn)多批處理出問題了,這已經(jīng)不是第一次出問題了。
任務(wù)將服務(wù)器資源耗盡,內(nèi)存占滿,CPU耗盡,磁盤IO負(fù)載極高,快冒煙了。
重啟數(shù)據(jù)庫三次,總算將批處理跑完了。
上午將各個(gè)系統(tǒng)開發(fā)人員都叫了過來,包括數(shù)據(jù)庫系統(tǒng)開發(fā)人員,大家一起分析原因。
網(wǎng)絡(luò),服務(wù)器逐個(gè)排查,似乎都沒有問題。
下午快下班了,領(lǐng)導(dǎo)終于決定重啟整個(gè)集群。
好像打仗一樣,三個(gè)小時(shí)以后,集群重啟完成,今天的批處理也還啟動(dòng)了。
領(lǐng)導(dǎo)讓業(yè)務(wù)部門出一個(gè)優(yōu)先清單,如果今天還出現(xiàn)服務(wù)器卡死的情況,等服務(wù)重啟之后,先優(yōu)先跑這個(gè)清單的任務(wù),然后再跑其他任務(wù)。
為了實(shí)現(xiàn)這個(gè)功能,忙活到晚上十點(diǎn)。