異常監(jiān)控項目架構(gòu)

目錄

內(nèi)容

1. 簡介

前端監(jiān)控 是一套用于 監(jiān)測 前端項目運行時情況,及時上報錯、統(tǒng)計錯誤、性能和用戶行為的系統(tǒng)。它能我們及時地發(fā)現(xiàn)線上客戶端產(chǎn)品的錯誤、了解客戶端產(chǎn)品的性能 等;

目前提供了如下功能:

  • 用戶行為
    • 用戶在線時長
    • 菜單點擊量
    • 用戶增長
  • 異常監(jiān)控
    • 頁面性能
    • 錯誤看板
  • 報警
    • 報警配置
    • 報警日志

2. 項目成員

整個前端監(jiān)控項目由以下幾部分組成

  • 上報SDK:負(fù)責(zé)收集前端異常的 SDK;此 SDK 運行于需要被監(jiān)測的前端項目中,會在需要時將相關(guān)數(shù)據(jù)上報到 日志任務(wù);
  • 日志任務(wù):日志任務(wù)的作用是記錄 SDK 上報的數(shù)據(jù),并定期處理數(shù)據(jù),然后將處理后的數(shù)據(jù)存入 數(shù)據(jù)庫;
  • 管理系統(tǒng):用來展示被監(jiān)控項目的異常情況,是整個組織中的展示層,數(shù)據(jù)從 Web服務(wù) 獲取;
  • Web服務(wù):管理系統(tǒng) 的 后端服務(wù),用來給后臺管理web項目提供 數(shù)據(jù);
項目關(guān)系圖

此圖是由 dot 和 plantUML 語言繪成,如需修改,請看 [項目關(guān)系圖.dot][]、[項目關(guān)系圖.puml][]

各部分的倉庫地址如下:

  • 監(jiān)控后臺倉庫:包含 日志任務(wù)Web服務(wù);各服務(wù)的代碼入口代碼文件如下:
    • 日志任務(wù): 源代碼入口:src/fee,構(gòu)建包入口:dist/fee
    • Web服務(wù):源代碼入口:src/app,構(gòu)建包入口:dist/fee
  • 監(jiān)控前端倉庫:包含 管理系統(tǒng)
  • 上報SDK:包含 SDK

3. 整體架構(gòu)

整個監(jiān)控項目的整體架構(gòu)如下:


整體架構(gòu)

各個模塊的詳細(xì)的介紹如下

3.1. 上報SDK

上報SDK 運行于被監(jiān)控的前端項目中,用于收集相關(guān)數(shù)據(jù) 并將收集的數(shù)據(jù)上報給 后端服務(wù)。

上報的數(shù)據(jù)分為兩類:

  • 自動上報的數(shù)據(jù):
    • 錯誤類型數(shù)據(jù):主要是常見的JavaScript語法錯誤、運行錯誤、咨詢加載錯誤;通過監(jiān)聽全局錯誤事件、全局異常事件來獲取。
    • 性能相關(guān)數(shù)據(jù):如:文檔開始獲取、開始解析、解析完成 等等;
    • 環(huán)境相關(guān)數(shù)據(jù):主要是獲取 userAgent 相關(guān)的環(huán)境數(shù)據(jù)
  • 手動上報的數(shù)據(jù):
    • 用戶行為數(shù)據(jù):主要是用戶平均在線時長、用戶菜單點擊量等;
    • 業(yè)務(wù)錯誤數(shù)據(jù):主要是業(yè)務(wù)上的邏輯錯誤,這類錯誤在 語言層面不算是錯誤,所以不能自動收集,需要開發(fā)人員自定義格式進(jìn)行手動上報;

3.2. 日志任務(wù)

日志任務(wù)是用來 消費、清洗 SDK 上報的數(shù)據(jù)的,這個過程中,每一個環(huán)境都有相應(yīng)的定時任務(wù)來處理,所以的定時任務(wù)統(tǒng)一由 Task:Manager 命令來統(tǒng)一調(diào)度,所以,我們需要通過 Task:Manager 命令來啟動日志任務(wù)。

3.2.1. 日志任務(wù)數(shù)據(jù)處理流程

從 SDK 上報數(shù)據(jù) 到 存入數(shù)據(jù)庫,這個數(shù)據(jù)的處理過程如下:

日志任務(wù)數(shù)據(jù)處理流程
  1. 數(shù)據(jù)收集:上報SDK 收集數(shù)據(jù),然后將數(shù)據(jù)發(fā)送給后端;
  2. 生成日志:Nginx 將上報的數(shù)據(jù)記錄成日志文件;
  3. 結(jié)構(gòu)化數(shù)據(jù):通過 SaveLog 命令將上一步生成的日志轉(zhuǎn)成 JSON 格式 并保存成 以分鐘為單位分隔的文件;
  4. 解析并存入原始表:通過 Parse 命令解析上一步的 JSON 數(shù)據(jù),然后將數(shù)據(jù)存入到數(shù)據(jù)庫相應(yīng)的原始數(shù)據(jù)表中;
  5. 統(tǒng)計:通過 Summary 命令對上一步解析后的數(shù)據(jù)進(jìn)行統(tǒng)計,并將統(tǒng)計結(jié)果存入 數(shù)據(jù)庫的 結(jié)果數(shù)據(jù)表 和 Redis 中;

3.2.2. 命令的語法及作用

日志任務(wù)應(yīng)用的入口文件是 dist/fee.js,所以,我們需要通過 node dist/fee.js 命令 參數(shù) 的方式來執(zhí)行下面描述的命令,比如:執(zhí)行 Utils:GenerateSQL命令的的方式為 node dist/fee.js Utils:GenerateSQL '1,2,3' 2020-12 2021-04

由于 package.json 配置了 fee.js 的腳本,所以你也可以用 npm run fee 命令 參數(shù) 來執(zhí)行相應(yīng)的命令。

結(jié)構(gòu)化

  • SaveLog:Kafka:解析kafka日志, 按日志創(chuàng)建時間將原日志和解析后合法的json日志落在log文件中, 每運行30s自動退出
    • 語法:SaveLog:Kafka
  • SaveLog:Nginx:每一分鐘讀取Nginx日志文件,并解析
    • 語法:SaveLog:Nginx

監(jiān)控

  • WatchDog:Alarm:根據(jù)報警配置,監(jiān)測每一條報警配置對應(yīng)的項目錯誤
    • 語法:WatchDog:Alarm
  • WatchDog:Saas:[按分鐘] 檢查最近5分鐘內(nèi)錯誤數(shù)是否超出閾值, 自動報警
    • 語法:WatchDog:Saas
      解析
  • Parse:Monitor:[按分鐘] 解析kafka日志, 分析Monitor
    • 語法:Parse:Monitor <日志掃描范圍上限,格式為 YYYY-MM-DD HH:mm> <日志掃描范圍下限,格式為 YYYY-MM-DD HH:mm>
  • Parse:UV:[按小時] 解析kafka日志, 分析記錄指定時間范圍內(nèi)的uv
    • 語法:Parse:UV <日志掃描范圍上限,格式為 YYYY-MM-DD HH:mm> <日志掃描范圍下限 YYYY-MM-DD HH:mm>
  • Parse:TimeOnSiteByHour:[按小時] 解析kafka日志, 分析記錄指定時間范圍內(nèi)用戶停留時長
    • Parse:TimeOnSiteByHour <日志掃描范圍上限,格式為 YYYY-MM-DD HH:mm> <日志掃描范圍下限,格式為YYYY-MM-DD HH:mm>
  • Parse:Device:[按天] 解析kafka日志, 分析指定時間范圍Device
    • Parse:Device <日志掃描范圍上限,格式為 YYYY-MM-DD HH:mm> <日志掃描范圍下限 YYYY-MM-DD HH:mm>
  • Parse:MenuClick:[按天] 解析kafka日志, 用戶點擊情況
    • Parse:MenuClick <日志掃描范圍上限,格式為 YYYY-MM-DD HH:mm> <日志掃描范圍下限 YYYY-MM-DD HH:mm>
  • Parse:Performance:[按小時] 解析kafka日志, 分析分鐘級別的指定時間范圍內(nèi)的性能指標(biāo)
    • Parse:Performance <日志掃描范圍上限,格式為 YYYY-MM-DD HH:mm> <日志掃描范圍下限 YYYY-MM-DD HH:mm>
  • Parse:UserFirstLoginAt:[按天] 解析kafka日志, 記錄用戶首次登陸時間
    • Parse:UserFirstLoginAt <日志掃描范圍上限,格式為 YYYY-MM-DD HH:mm> <日志掃描范圍下限 YYYY-MM-DD HH:mm>

統(tǒng)計

  • Summary:Error:[按分鐘/按小時/按天] 根據(jù)歷史數(shù)據(jù), 匯總分析錯誤數(shù)

    • 語法:Summary:Error <所統(tǒng)計時間,格式為:分 YYYY-MM-DD HH:mm | 小時 YYYY-MM-DD HH | 天 YYYY-MM-DD> <統(tǒng)計類型: minute | hour | day >
  • Summary:HttpError:[按天/按月] 基于數(shù)據(jù)表做統(tǒng)計, 統(tǒng)計http error分布情況

    • 語法:Summary:HttpError <按月/按天統(tǒng)計錯誤情況,格式為 YYYY-MM-DD | YYYY-MM> <日志統(tǒng)計格式:day | month >
  • Summary:NewUser:[按小時/按天/按月] 根據(jù)歷史數(shù)據(jù), 匯總分析記錄指定時間范圍內(nèi)的新增用戶數(shù)

    • 語法:Summary:NewUser <所統(tǒng)計時間,格式為: 小時 YYYY-MM-DD HH | 天 YYYY-MM-DD | 月 YYYY-MM> <統(tǒng)計類型:hour | day | month >
  • Summary:Performance:[按小時/按天/按月] 根據(jù)歷史數(shù)據(jù), 匯總分析記錄指定時間范圍內(nèi)的性能指標(biāo)數(shù)據(jù)

    • 語法:Summary:Performance <所統(tǒng)計時間,格式為: 小時 YYYY-MM-DD HH | 天 YYYY-MM-DD | 月 YYYY-MM> <統(tǒng)計類型 : hour | day | month >
  • Summary:SystemBrowser:[按月] 基于數(shù)據(jù)庫統(tǒng)計瀏覽器占比

    • 語法:Summary:SystemBrowser <按月統(tǒng)計瀏覽器分布情況,格式為 YYYY-MM> <日志統(tǒng)計格式: month>
  • Summary:SystemDevice:[按月] 基于數(shù)據(jù)庫統(tǒng)計設(shè)備占比

    • 語法:Summary:SystemDevice <按月統(tǒng)計設(shè)備分布情況,格式為 YYYY-MM> <日志統(tǒng)計格式:month>
  • Summary:SystemOS:[按月]基于數(shù)據(jù)庫統(tǒng)計操作系統(tǒng)占比

    • 語法:Summary:SystemOS <按月統(tǒng)計系統(tǒng)分布情況,格式為 YYYY-MM> <日志統(tǒng)計格式:month>
  • Summary:SystemRuntimeVersion:[按月]基于數(shù)據(jù)庫統(tǒng)計版本占比

    • 語法:Summary:SystemRuntimeVersion <按月統(tǒng)計系統(tǒng)版本情況,格式為 YYYY-MM> <日志統(tǒng)計格式:month>
  • Summary:TimeOnSite:[按天/按月] 根據(jù)歷史數(shù)據(jù), 匯總分析記錄指定時間范圍內(nèi)用戶停留時長

    • 語法:Summary:TimeOnSite <所統(tǒng)計時間,格式為 YYYY-MM-DD | YYYY-MM > <日志統(tǒng)計格式: day | month >
  • Summary:UV:[按小時/按天/按月] 根據(jù)歷史數(shù)據(jù), 匯總分析記錄指定時間范圍內(nèi)的uv

    • 語法:Summary:UV <所統(tǒng)計時間,格式為: 小時 YYYY-MM-DD HH | 天 YYYY-MM-DD | 月 YYYY-MM> <統(tǒng)計類型: hour | day | month >

緩存

  • CreateCache:UpdatePerOneMinute:[每10分鐘執(zhí)行一次] 主動調(diào)用方法, 更新Redis緩存, 每10分鐘更新一次
    • 語法:CreateCache:UpdatePerOneMinute

工具

  • Utils:CleanOldLog:只保留當(dāng)前月內(nèi)數(shù)據(jù), 每月20號之后自動刪除上個月數(shù)據(jù)

    • 語法:Utils:CleanOldLog
  • Utils:ReProcessLog:只保留當(dāng)前月內(nèi)數(shù)據(jù), 每月20號之后自動刪除上個月數(shù)據(jù)

    • 語法:Utils:ReProcessLog <日志掃描范圍上限,格式為 YYYY-MM-DD HH:mm > <日志掃描范圍下限,格式為 YYYY-MM-DD HH:mm>
  • Utils:TestUC:測試UC接口

    • 語法:Utils:TestUC
  • Utils:Test:專業(yè)粘貼調(diào)試代碼

    • 語法:Utils:Test
  • Utils:GenerateSQL:生成項目在指定日期范圍內(nèi)的建表SQL

    • 語法:Utils:GenerateSQL <項目id列表,逗號分割> <建表日期開始時間(包括該時間),格式為 YYYY-MM> <建表日期結(jié)束時間(包括該時間), 格式為 YYYY-MM>
  • Utils:TemplateSQL:生成項目在指定日期范圍內(nèi)的建表SQL

    • 語法:Utils:TemplateSQL>

其它

  • Task:Manager:任務(wù)調(diào)度主進(jìn)程, 只能啟動一次
    • 語法:Task:Manager
  • Command:Demo:任務(wù)調(diào)度主進(jìn)程, 只能啟動一次
    • 語法:Command:Demo <必傳,用戶名> [可選,稱謂] < --onlyFlag:必傳,flag,只有true/false兩個值 > < --logName=@value:必傳,日志文件名> [--isTest?=@value:可選,是否處于測試環(huán)境]

3.2.3. 執(zhí)行周期

一次性命令: 整個應(yīng)用生命周期只需要執(zhí)行一次

  • Task:Manager

每分鐘執(zhí)行一次:

  • SaveLog:Kafka:[按分鐘] 每分鐘啟動一次SaveLog
  • SaveLog:Nginx:[按分鐘] 每分鐘啟動一次SaveLog
  • WatchDog:Alarm:[按分鐘] 每分鐘啟動一次WatchDog:Alarm, 監(jiān)控平臺運行情況
  • Parse:Monitor:[按分鐘] 解析kafka日志, 分析錯誤詳情
  • Summary:Error:[按分鐘] 每分鐘運行Summary:Error, 分別統(tǒng)計前2,3,4,5,10分鐘內(nèi)的數(shù)據(jù)

每10分鐘執(zhí)行一次的任務(wù):

  • CreateCache:UpdatePerOneMinute: 主動調(diào)用方法, 更新Redis緩存,
  • Parse:UVParse:TimeOnSiteByHourParse:PerformanceParse:Monitor:解析最近15分鐘內(nèi)的數(shù)據(jù)
  • Summary:UVSummary:NewUserSummary:PerformanceSummary:Error:分別解析當(dāng)前小時 和 一小時前

每1小時執(zhí)行一次的任務(wù): 每小時15分30秒啟動

  • Parse:DeviceParse:MenuClickParse:UserFirstLoginAt:解析昨天到今天的數(shù)據(jù)
  • Summary:UVSummary:NewUserSummary:PerformanceSummary:ErrorSummary:TimeOnSite:處理當(dāng)日數(shù)據(jù)

每6小時執(zhí)行一次的任務(wù): 每過6小時在35分45秒啟動

  • Summary:UVSummary:NewUserSummary:PerformanceSummary:ErrorSummary:TimeOnSite:處理當(dāng)日數(shù)據(jù)
  • Summary:UVSummary:NewUserSummary:PerformanceSummary:TimeOnSiteSummary:SystemBrowserSummary:SystemDeviceSummary:SystemOS:分別處理 當(dāng)月 和 上月 的數(shù)據(jù)
  • Utils:CleanOldLog:清理歷史log

3.3. 管理系統(tǒng)

管理系統(tǒng) 是一個 Web應(yīng)用,是用來以圖形化的方式展示 上報SDK 收集的各種數(shù)據(jù),并提供了一些 用戶、權(quán)限、項目管理的功能,詳情請看 監(jiān)控前端倉庫

3.4. Web服務(wù)

Web服務(wù) 是 管理系統(tǒng) 的后端服務(wù),應(yīng)用程序的入口文件是 dist/app

3.5. 公司基礎(chǔ)設(shè)施

監(jiān)控項目接入了公司的基礎(chǔ)服務(wù),如:PMS、MySQL、Redis、Kafka、Zookeeper 等等。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,533評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,055評論 3 414
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,365評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,561評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,346評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,889評論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,978評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,118評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,637評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,558評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,739評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,246評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 43,980評論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,362評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,619評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,347評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 47,702評論 2 370

推薦閱讀更多精彩內(nèi)容