摘要:本文整理自 Flink Forward Asia 2023 中閉門會(huì)的分享。主要分享實(shí)時(shí)計(jì)算在各行業(yè)的應(yīng)用實(shí)踐,對(duì)回歸實(shí)時(shí)計(jì)算的重點(diǎn)場(chǎng)景進(jìn)行介紹以及企業(yè)如何使用實(shí)時(shí)計(jì)算技術(shù),并且提供一些在技術(shù)架構(gòu)上的參考建議。內(nèi)容分為以下四個(gè)部分:
- 業(yè)務(wù)需求變化推動(dòng)架構(gòu)演進(jìn)
- 實(shí)時(shí)計(jì)算在各行業(yè)的應(yīng)用與實(shí)踐
- 從數(shù)據(jù)看實(shí)時(shí)計(jì)算在各行業(yè)的趨勢(shì)
- 總結(jié)
一、業(yè)務(wù)需求變化推動(dòng)架構(gòu)演進(jìn)
任何技術(shù)的發(fā)展都是隨著業(yè)務(wù)需求而推動(dòng)。那么隨著業(yè)務(wù)技術(shù)的需求推動(dòng),是如何發(fā)展到當(dāng)前的技術(shù)形態(tài)呢?
在早期,企業(yè)依靠數(shù)據(jù)分析和數(shù)據(jù)倉(cāng)庫(kù)查看到最近的數(shù)據(jù),如昨天、一個(gè)月前乃至三個(gè)月前的數(shù)據(jù)。許多企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)是基于像 MySQL、Oracle、DB2 這樣的傳統(tǒng)單機(jī)數(shù)據(jù)庫(kù)系統(tǒng)搭建的。隨著時(shí)間推移,企業(yè)對(duì)歷史數(shù)據(jù)的分析需求增加,需要分析的數(shù)據(jù)也越來越多,時(shí)間跨度也擴(kuò)大到了三年、五年,甚至十年,導(dǎo)致單機(jī)架構(gòu)在這種海量數(shù)據(jù)分析需求面前也顯得力不從心。因此,分布式數(shù)據(jù)庫(kù)如 Teradata、Greenplum (GP) 應(yīng)運(yùn)而生,幫助解決在海量數(shù)據(jù)情況下企業(yè)快速數(shù)據(jù)分析的需求,并且解決了第二個(gè)問題:“大”和“快”的問題。 從2006 年 Hadoop 成為開源社區(qū)的頂級(jí)項(xiàng)目開始,企業(yè)大規(guī)模使用 Hadoop 來做離線分析,標(biāo)志著數(shù)據(jù)處理能力的一個(gè)重要進(jìn)步。 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)不僅限于關(guān)系數(shù)據(jù),可能來自于互聯(lián)網(wǎng)的行為日志數(shù)據(jù),也可能來自不同設(shè)備的終端時(shí)序數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中沒有辦法基于 SQL、存儲(chǔ)過程來分析,而是需要基于 MapReduce、 Spark 以及 Python 方式對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和分析。在這種情況下就需要一種新的系統(tǒng) Hadoop,目前大多數(shù)企業(yè)已經(jīng)在這個(gè)階段過渡。后來業(yè)務(wù)需求對(duì)實(shí)質(zhì)性的要求越來越高,需要的不再是 T+1 的數(shù)據(jù),而是需要根據(jù)前一個(gè)小時(shí)、前一分鐘、前一秒的業(yè)務(wù)動(dòng)態(tài)來判斷下一個(gè)角色。所以對(duì)時(shí)效性要求越來越高,這促使著現(xiàn)在的流計(jì)算技術(shù)發(fā)展,使Flink 成為企業(yè)的一個(gè)在實(shí)時(shí)計(jì)算的事實(shí)標(biāo)準(zhǔn)。
二、實(shí)時(shí)計(jì)算在各行業(yè)的應(yīng)用與實(shí)踐
接下來分享四個(gè)實(shí)時(shí)計(jì)算使用比較多的行業(yè),分別是金融、汽車,交通物流以及零售行業(yè)。分享一下在這些行業(yè)場(chǎng)景中是如何使用大數(shù)據(jù)實(shí)時(shí)計(jì)算相關(guān)的技術(shù),以及近幾年實(shí)時(shí)計(jì)算使用的比例變化。
1. 金融行業(yè)
金融業(yè)在實(shí)時(shí)計(jì)算的應(yīng)用里基本上處于百花齊放的狀態(tài)。不僅可以收到實(shí)時(shí)推薦的消息、股票交易的動(dòng)態(tài)變化等,而且除了這些情況外,金融機(jī)構(gòu)還會(huì)做 To B 端企業(yè)服務(wù)和私募基金的相關(guān)服務(wù)。對(duì)大客營(yíng)銷需要針對(duì)性的監(jiān)管報(bào)送,實(shí)時(shí)將企業(yè)、金融機(jī)構(gòu)的風(fēng)險(xiǎn)提供給監(jiān)管部門,這些都需要大量的實(shí)時(shí)計(jì)算技術(shù)。
接下來舉兩個(gè)行業(yè)場(chǎng)景的例子,金融行業(yè)是如何使用相關(guān)大數(shù)據(jù)實(shí)時(shí)計(jì)算技術(shù)的?下圖是一個(gè)案例證券交易行為。
在當(dāng)前股市中,對(duì)交易監(jiān)控的實(shí)時(shí)性要求極高,主要是因?yàn)槭袌?chǎng)價(jià)格波動(dòng)迅速,股民的交易行為需要得到即時(shí)的監(jiān)管。例如,在實(shí)施注冊(cè)制之前,如果股票的交易價(jià)格為 100 元,投資者可以掛出 110 元的買單。在極短的時(shí)間內(nèi),可能價(jià)格就會(huì)漲到 110 元,從而使投資者獲得 10% 的收益。但注冊(cè)制實(shí)行后,掛單價(jià)格的上限受到限制,不得超過當(dāng)前賣出價(jià)格溢價(jià)的 2%,也就是說最高只能掛 102 元。這樣的變化意味著對(duì)交易行為實(shí)施實(shí)時(shí)監(jiān)控和告警,以及在必要時(shí)進(jìn)行阻斷變得更加重要。如果阻斷措施延遲,可能會(huì)引發(fā)數(shù)據(jù)合規(guī)性問題。因此,為了確保合規(guī)并保護(hù)投資者的利益,對(duì)于交易行為的監(jiān)控系統(tǒng)必須做到快速反應(yīng)。
舉個(gè)例子,在股市交易監(jiān)控方面,各種訂單數(shù)據(jù),如股票的買入量、當(dāng)前報(bào)價(jià)及股票代碼,以實(shí)時(shí)數(shù)據(jù)的形式流入系統(tǒng)并進(jìn)入消息隊(duì)列。除了這些流式數(shù)據(jù),還需要引入與所購(gòu)股票相關(guān)的基本信息,比如客戶購(gòu)買的財(cái)報(bào)數(shù)據(jù)、昨日的漲停價(jià)和開盤價(jià)等。這些基礎(chǔ)數(shù)據(jù)存儲(chǔ)于 Hologres 中,以維表的形式存在,用于與流式數(shù)據(jù)進(jìn)行關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)之后,再利用 Flink 對(duì)這些信息進(jìn)行加工和判斷分析。如果檢測(cè)到用戶在近幾分鐘內(nèi)掛出的訂單價(jià)格超過了當(dāng)下價(jià)格的 2%,系統(tǒng)會(huì)立即采取阻斷措施并發(fā)出告警。考慮到場(chǎng)景架構(gòu)圖中存在眾多的風(fēng)險(xiǎn)和交易規(guī)則,我們采用基于復(fù)雜事件處理(CEP)的方法來實(shí)現(xiàn)風(fēng)控規(guī)則,而上述只描述了其中一條規(guī)則。同時(shí),還可能需要引入離線數(shù)據(jù)來補(bǔ)充用戶信息。這些離線數(shù)據(jù)每天按照T+1模式更新,通過分析這些歷史數(shù)據(jù)并將它們與實(shí)時(shí)數(shù)據(jù)結(jié)合,可以對(duì)交易情況做出更加細(xì)致的判斷。
下面第二個(gè)案例是零售銀行面向 c 端的用戶推薦。
銀行和許多金融機(jī)構(gòu)會(huì)定期發(fā)布各種促銷活動(dòng),包括針對(duì)股票和基金的活動(dòng)。作為用戶,當(dāng)通過 APP 或 H5 頁面點(diǎn)擊參與活動(dòng)時(shí),就會(huì)生成一條實(shí)時(shí)觸發(fā)的消息流。接下來,系統(tǒng)需要判斷這個(gè)用戶應(yīng)該得到多少優(yōu)惠券,并且通過積分獎(jiǎng)勵(lì)的方式鼓勵(lì)用戶完成購(gòu)買,形成銷售的閉環(huán)。為了處理這個(gè)流程,整個(gè)鏈路會(huì)使用 Flink+Hologres 來協(xié)助客戶做處理。
2. 汽車行業(yè)
近年來,隨著新能源汽車產(chǎn)業(yè)的快速發(fā)展,汽車行業(yè)對(duì)數(shù)據(jù)的依賴日益增加,數(shù)據(jù)量的增長(zhǎng)速度非常迅猛。可以看到一個(gè)現(xiàn)象,在云上的多數(shù)企業(yè) CPU 和內(nèi)存的使用成本遠(yuǎn)遠(yuǎn)高于數(shù)據(jù)存儲(chǔ)成本,在云上的來說存儲(chǔ)相對(duì)廉價(jià)。然而,汽車行業(yè)的情況頗為獨(dú)特,由于數(shù)據(jù)涌現(xiàn)速度極快,特別是新能源汽車產(chǎn)生的數(shù)據(jù)已經(jīng)在云平臺(tái)上造成存儲(chǔ)成本超過計(jì)算成本的現(xiàn)象。
汽車行業(yè)從初期的研發(fā)制造、供應(yīng)鏈、銷售、再到對(duì)外的服務(wù),整個(gè)鏈路都包含了眾多的實(shí)時(shí)場(chǎng)景與應(yīng)用。包括在研發(fā)階段需要對(duì)研發(fā)過程的實(shí)時(shí)監(jiān)控、研發(fā)參數(shù)的實(shí)時(shí)告警。在供應(yīng)鏈環(huán)節(jié),對(duì)零部件進(jìn)行實(shí)時(shí)預(yù)警同樣關(guān)鍵,每一個(gè)供應(yīng)鏈環(huán)節(jié)都可能直接影響到一個(gè)企業(yè)的業(yè)務(wù)目標(biāo)和銷售業(yè)績(jī)。在銷售環(huán)節(jié),針對(duì)C端用戶的商品推薦和行為分析也極為重要。
另一個(gè)場(chǎng)景是在服務(wù)階段,如何提供良好的汽車服務(wù)以促進(jìn)二次銷售也是企業(yè)需要關(guān)注的場(chǎng)景。下文將介紹一個(gè)重要的行業(yè)應(yīng)用:新能源汽車的車聯(lián)網(wǎng)場(chǎng)景。隨著車輛上裝配的攝像頭、傳感器和雷達(dá)數(shù)量的增多,這背后采集到的數(shù)據(jù)量也在相應(yīng)增加。
我們有一個(gè)客戶,每天要采集大約 42 億條數(shù)據(jù),采集頻率是每秒一次。相比之下,在一年前他們可能是每天只采集一次數(shù)據(jù)。隨后這個(gè)頻率提高到了每10分鐘一次,繼而因?yàn)闃I(yè)務(wù)需求,他們需要將采集頻率從原先的每 10 秒逐步過渡到每秒采集。此外,我們還有汽車行業(yè)的客戶,現(xiàn)在已經(jīng)需要達(dá)到每 500 毫秒采集一次數(shù)據(jù)。以 30 萬輛運(yùn)行中的車為例,如果每秒采集數(shù)據(jù)一次,就意味著每秒需要采集 30 萬條數(shù)據(jù)。然而,這些數(shù)據(jù)與其他行業(yè)的數(shù)據(jù)有所不同,一條數(shù)據(jù)就可能包含多達(dá) 3,000 到 4,000 個(gè)字段的信號(hào)數(shù)據(jù)
在車聯(lián)網(wǎng)場(chǎng)景中,前端設(shè)備可能是 TBOX 或 TSB 這樣的車載平臺(tái),它們通常采集的是二進(jìn)制數(shù)據(jù)。許多企業(yè)首要的工作是利用 Flink 將這些車載二進(jìn)制信號(hào)數(shù)據(jù)轉(zhuǎn)換成后續(xù)可進(jìn)行分析的結(jié)構(gòu)化數(shù)據(jù),這是處理流程的第一步。接下來,他們可能會(huì)使用 Hologres 進(jìn)行實(shí)時(shí)的在線分析服務(wù)。針對(duì)汽車行業(yè)高昂的存儲(chǔ)成本問題,Hologres也推出了價(jià)格更低廉的存儲(chǔ)產(chǎn)品,包括低頻訪問的存儲(chǔ)解決方案,幫助客戶在處理海量數(shù)據(jù)時(shí)實(shí)現(xiàn)存儲(chǔ)分層,從而幫助降低整體成本。
下面是介紹新能源汽車行業(yè),結(jié)合剛才的實(shí)時(shí)數(shù)據(jù)可以做的哪些場(chǎng)景。
在這一場(chǎng)景中,我們可以采集到多種車輛數(shù)據(jù),包括車輛所處的車道、駕駛員是否雙手握方向盤、車速以及車輛是左轉(zhuǎn)還是右轉(zhuǎn)等信息。通過分析這些數(shù)據(jù),系統(tǒng)能夠判斷駕駛員是否存在危險(xiǎn)駕駛行為。例如,如果一個(gè)駕駛員在五分鐘內(nèi)持續(xù)雙手脫離方向盤,或者在高速公路上連續(xù)五分鐘的速度超過 150 公里/小時(shí),那么系統(tǒng)就會(huì)將其歸類為危險(xiǎn)駕駛,并可能采取相應(yīng)措施向客戶發(fā)出預(yù)警。
同時(shí),還可以根據(jù)這些數(shù)據(jù)對(duì)用戶進(jìn)行畫像。如果數(shù)據(jù)顯示用戶偏好激烈的駕駛行為,那么在下一次購(gòu)車時(shí),系統(tǒng)可能會(huì)向該用戶推薦性能更強(qiáng)的車型。如今,無論是傳統(tǒng)主機(jī)廠還是排名前十的新能源汽車制造商,超過 70% 的車聯(lián)網(wǎng)平臺(tái)都在運(yùn)行于阿里云上。結(jié)合這些企業(yè)的實(shí)踐經(jīng)驗(yàn),阿里云推出了一套面向車聯(lián)網(wǎng)行業(yè)的推薦參考架構(gòu)。許多領(lǐng)先的汽車廠家都按照這套架構(gòu)實(shí)施其車聯(lián)網(wǎng)平臺(tái)。
下圖左側(cè)是實(shí)時(shí)架構(gòu),右側(cè)是離線架構(gòu)。
實(shí)時(shí)數(shù)倉(cāng)與實(shí)時(shí)計(jì)算的主要區(qū)別在于數(shù)據(jù)的處理和管理方式。在傳統(tǒng)的數(shù)倉(cāng)中,數(shù)據(jù)通常會(huì)進(jìn)行層次化處理,涉及到離線數(shù)據(jù)的不同層級(jí),比如 DWD、DWS 和 ADS。然而,在實(shí)時(shí)計(jì)算中,進(jìn)行層次化分隔較為困難,因?yàn)樗狈y(tǒng)一的存儲(chǔ)層次。例如,ODS 層的數(shù)據(jù)可能存放在 Kafka 中,加工后的 DWD 層數(shù)據(jù)可能放在 RDS 中,這些數(shù)據(jù)難以統(tǒng)一管理。目前,阿里云通過整合 Flink 和 Hologres 技術(shù),使接入的數(shù)據(jù)在消息隊(duì)列中存儲(chǔ),并經(jīng)過 Flink 的處理轉(zhuǎn)化成寬表格式,之后統(tǒng)一存放在 Hologres 中,實(shí)現(xiàn)了數(shù)據(jù)流的實(shí)時(shí)處理與分析。
很多業(yè)務(wù)部門早期將數(shù)據(jù)存放在消息隊(duì)列中,但這樣做無法執(zhí)行查詢,也無法使用 SQL 語句進(jìn)行數(shù)據(jù)操作。現(xiàn)在,可以將寬表格式的數(shù)據(jù)直接存儲(chǔ)在 Hologres 中,并且借助 Flink 按照離線數(shù)倉(cāng)的層次化架構(gòu),加工形成指標(biāo)數(shù)據(jù)后統(tǒng)一存放入 Hologres 引擎。將 Hologres 定義為面向業(yè)務(wù)的唯一數(shù)據(jù)出口,避免了對(duì)其他關(guān)系數(shù)據(jù)庫(kù)和 Key-Value 數(shù)據(jù)庫(kù)的依賴。將所有數(shù)據(jù)集中存儲(chǔ)在 Hologres 中后,前端應(yīng)用、報(bào)表和各種數(shù)據(jù)產(chǎn)品都能基于 Hologres 實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一訪問與輸出,這樣不僅簡(jiǎn)化了數(shù)據(jù)架構(gòu)還提升了數(shù)據(jù)處理的效率。
3. 物流行業(yè)
預(yù)計(jì)今年,許多物流企業(yè)采用實(shí)時(shí)計(jì)算的比例將超過50%。
物流行業(yè)在數(shù)據(jù)流轉(zhuǎn)方面與零售行業(yè)相似,都是圍繞著人、貨和場(chǎng)所進(jìn)行。一個(gè)顯著特點(diǎn)是物流行業(yè)對(duì)位置信息的要求日益增高。用戶在下單之后會(huì)時(shí)刻關(guān)注快遞的位置,因此,物流企業(yè)開始圍繞位置信息展開實(shí)時(shí)計(jì)算的數(shù)據(jù)加工與處理。數(shù)據(jù)的生成起始于用戶通過手機(jī)APP下單或電話聯(lián)系快遞員上門這樣的環(huán)節(jié),從而形成一套訂單信息。這些訂單在物流企業(yè)內(nèi)部經(jīng)過分發(fā)處理后,轉(zhuǎn)換為具體的運(yùn)單信息。運(yùn)單形成后,進(jìn)一步貫穿于派送和簽收等環(huán)節(jié)。在整個(gè)流程中,對(duì)鏈路時(shí)效性的要求越來越高,用戶對(duì)數(shù)據(jù)更新的容忍度逐漸降低,希望能夠?qū)崟r(shí)、每秒鐘都能看到最新的快遞信息。
下面舉幾個(gè)簡(jiǎn)單的場(chǎng)景,第一個(gè)場(chǎng)景是大件物流。與小件快遞不同,大件物流主要是做快運(yùn)。
快運(yùn)服務(wù)的一個(gè)特點(diǎn)是車輛類型的多樣性,包括大、中、小型車輛,此外還有許多特定的標(biāo)簽,比如載重能力。例如,如果一個(gè)客戶需要運(yùn)輸兩噸重的物品,但是分配了一個(gè)能承載十噸重的車輛,這顯然會(huì)有些浪費(fèi)。背后的匹配邏輯相當(dāng)復(fù)雜,因?yàn)橛袝r(shí)兩噸重的貨物實(shí)際上可能因體積較大而需要更大的車輛。那么,該如何有效地進(jìn)行車輛與貨物間的匹配呢?這就需要通過數(shù)據(jù)對(duì)車輛和貨物進(jìn)行精確的標(biāo)記,隨后實(shí)時(shí)計(jì)算技術(shù)便可以根據(jù)用戶貨物的變化和位置變化進(jìn)行合適的匹配與推薦。
接下來看第二個(gè)場(chǎng)景:
疫情期間所帶來的挑戰(zhàn)可能讓人感受更為明顯,比如一個(gè)企業(yè)負(fù)責(zé)從杭州到北京的大件物流運(yùn)輸。在這種情況下,可能會(huì)遇到運(yùn)至某城市時(shí)發(fā)現(xiàn)該城市正處于疫情管控,無法通過。這樣原本確定的物流單可能被迫取消,導(dǎo)致貨主雙方都面臨一系列問題。為了解決這類問題,借助實(shí)時(shí)計(jì)算技術(shù),司機(jī)可以實(shí)時(shí)上報(bào)自己的位置和其他相關(guān)信息,這通常需要硬件的支持;同時(shí),貨主端也能實(shí)時(shí)監(jiān)控貨物的狀態(tài)變化。通過這種方式,能夠有效提高整個(gè)物流過程的效率和響應(yīng)時(shí)效。
以下就是圍繞剛才講的兩個(gè)場(chǎng)景,物流行業(yè)場(chǎng)景的整個(gè)技術(shù)架構(gòu)圖。
總體來看,涉及的數(shù)據(jù)包括訂單數(shù)據(jù)、貨源數(shù)據(jù)、司機(jī)數(shù)據(jù)以及用戶會(huì)員數(shù)據(jù)等。這些數(shù)據(jù)如何進(jìn)行有效匹配呢?在這樣的數(shù)據(jù)架構(gòu)背后,不僅包括了實(shí)時(shí)的流消息,還涉及到離線的用戶標(biāo)簽數(shù)據(jù)、車輛的靜態(tài)維度表數(shù)據(jù)等多種數(shù)據(jù)類型。利用 Flink 技術(shù),可以綜合處理這些不同來源的流數(shù)據(jù)和靜態(tài)維表數(shù)據(jù)進(jìn)行必要的加工處理。加工后的數(shù)據(jù)可以應(yīng)用于多種業(yè)務(wù)場(chǎng)景,例如智能匹配車輛與貨物、實(shí)時(shí)監(jiān)控路線以及提供最優(yōu)路線推薦等,有效地優(yōu)化物流配送的效率和服務(wù)質(zhì)量。
針對(duì)這個(gè)場(chǎng)景,我們提出了一個(gè)參考架構(gòu)。前端的埋點(diǎn)數(shù)據(jù)、用戶端數(shù)據(jù)以及 APP 上報(bào)的數(shù)據(jù)將會(huì)統(tǒng)一推送到消息隊(duì)列 Data Hub 中。數(shù)據(jù)一旦推送到 Data Hub,就會(huì)通過 Flink 進(jìn)行實(shí)時(shí)的接入和加工處理。處理完成的數(shù)據(jù)隨后會(huì)統(tǒng)一存儲(chǔ)到 Hologres 中。前端應(yīng)用可能直接從 Hologres 中執(zhí)行 OLAP 分析,或者在這基礎(chǔ)上進(jìn)行實(shí)時(shí)決策支持。 Hologres 可以提供實(shí)時(shí)的運(yùn)力匹配關(guān)系、供需動(dòng)態(tài)以及實(shí)時(shí)軌跡分析等關(guān)鍵業(yè)務(wù)信息,這些功能在需要快速響應(yīng)市場(chǎng)變化和用戶需求的業(yè)務(wù)場(chǎng)景應(yīng)用中特別重要。在架構(gòu)的右側(cè),主要針對(duì)的是離線場(chǎng)景,同樣會(huì)將實(shí)時(shí)處理的數(shù)據(jù)寫入離線的對(duì)象存儲(chǔ)中,以便用于離線數(shù)據(jù)的進(jìn)一步補(bǔ)充和處理。
4. 零售行業(yè)
零售行業(yè)是最早開始采用實(shí)時(shí)計(jì)算的行業(yè)之一。阿里巴巴在最初開展雙11大促活動(dòng)時(shí),就已經(jīng)能夠通過大屏實(shí)時(shí)展示當(dāng)前的銷售動(dòng)態(tài)數(shù)據(jù)。企業(yè)的決策者們需要了解當(dāng)前的銷售情況,并依據(jù)這些實(shí)時(shí)數(shù)據(jù)進(jìn)行相關(guān)的決策。接下來,我會(huì)舉兩個(gè)具體的例子來說明。
第一個(gè)例子是,在特別是像雙十一、雙十二這樣的大型促銷中,許多零售企業(yè)會(huì)準(zhǔn)備大量促銷活動(dòng)。假設(shè)企業(yè)需要準(zhǔn)備 1,000 萬優(yōu)惠券,它們需要對(duì)這 1,000 萬的優(yōu)惠券的動(dòng)向進(jìn)行實(shí)時(shí)監(jiān)控。接著,根據(jù)優(yōu)惠券的發(fā)放情況,需要進(jìn)行動(dòng)態(tài)的調(diào)整。如果在最開始的五分鐘內(nèi) 1,000 萬優(yōu)惠券就被搶光了,企業(yè)需要立刻決策是否再追加 1,000 萬以增加用戶轉(zhuǎn)化率?這些都是在營(yíng)銷的全過程中,包括營(yíng)銷前、營(yíng)銷中、營(yíng)銷后,業(yè)務(wù)流程中需要考慮的因素。
在技術(shù)實(shí)現(xiàn)方面,離線場(chǎng)景涉及到大量的歷史數(shù)據(jù),包括用戶的行為、他們偏好的服裝類型、年齡和性別等信息,這些都會(huì)被儲(chǔ)存在歷史數(shù)據(jù)平臺(tái)上。當(dāng)出現(xiàn)購(gòu)買信息或潛在的點(diǎn)擊行為時(shí),基于 Flink 引擎可以幫助實(shí)時(shí)作出判斷。它能預(yù)測(cè)用戶是否可能在接下來的兩分鐘內(nèi)下單,并且識(shí)別出哪種優(yōu)惠券對(duì)用戶來說更有吸引力。整個(gè)過程需要 Flink 利用技術(shù)手段來進(jìn)行評(píng)估和決策。下圖是實(shí)施營(yíng)銷的一個(gè)決策方案架構(gòu):
下面是第二個(gè)場(chǎng)景:
很多企業(yè)依賴實(shí)時(shí)數(shù)據(jù)分析來強(qiáng)化其商業(yè)決策,這需要能夠迅速向企業(yè)決策者和各個(gè)業(yè)務(wù)部門提供關(guān)鍵信息。例如,精確追蹤某個(gè)用戶在特定頁面的停留時(shí)間及其帶來了多少轉(zhuǎn)化率。基于一款提供相關(guān)查詢和分析的平臺(tái),簡(jiǎn)而言之,用戶需要進(jìn)行查詢,盡管這背后可能涉及海量的數(shù)據(jù),可能是幾億甚至幾十億條記錄。那么如何解決這一挑戰(zhàn)呢?解決方案是通過 Hologres。我們可以看到,底層的數(shù)據(jù)被存儲(chǔ)在 Hologres 中,并且可能存在各種檢索條件。基于這些檢索條件系統(tǒng)需要快速地給業(yè)務(wù)提供決策支持和響應(yīng)能力。比如,可能需要查詢特定品類、用戶當(dāng)前行為、某個(gè)商品占位信息或廣告投放的效率等。基于多樣的檢索條件,Hologres 提供的 OLAP 查詢能力可以滿足這些需求,從而實(shí)現(xiàn)客戶對(duì)于數(shù)據(jù)的快速查詢。
下面是在線做電商的一個(gè)客戶,基本上幾十 TB 級(jí)的數(shù)據(jù)。自助分析的響應(yīng)速度控制在 3 秒以內(nèi),基本上 99% 的查詢都是在 3 秒以內(nèi)響應(yīng),業(yè)務(wù)方認(rèn)為這樣的速度能夠非常快捷地幫助他們提高決策效率。
零售行業(yè)也提出了一個(gè)參考架構(gòu)。
在零售行業(yè)中,數(shù)據(jù)倉(cāng)庫(kù)通常包含了如商品、會(huì)員、銷售、售后和運(yùn)營(yíng)等多個(gè)標(biāo)準(zhǔn)化領(lǐng)域,這些分域和層次結(jié)構(gòu)一般來說都非常規(guī)范和通用。基于這樣的架構(gòu),可以借助阿里云的 MaxCompute 來執(zhí)行離線數(shù)據(jù)倉(cāng)庫(kù)的分層處理。對(duì)于實(shí)時(shí)計(jì)算需求,則可以通過結(jié)合 Flink 和 Hologres 來實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)的操作,以及構(gòu)建統(tǒng)一的架構(gòu)。至于調(diào)度管理層,可以使用 DataWorks 來提供統(tǒng)一的工作流程調(diào)度和數(shù)據(jù)加工服務(wù)。這是一個(gè)在零售行業(yè)常見的推薦架構(gòu)。上述四個(gè)方面是對(duì)實(shí)時(shí)計(jì)算依賴性較高且使用效果良好的行業(yè)中的典型應(yīng)用場(chǎng)景。
三、從數(shù)據(jù)看實(shí)時(shí)計(jì)算在各行業(yè)的趨勢(shì)
根據(jù)阿里云發(fā)布的公有云數(shù)據(jù)報(bào)告,中國(guó)大約有 50% 的大數(shù)據(jù)用戶選擇使用阿里云服務(wù),擁有數(shù)萬名大數(shù)據(jù)客戶。從這些客戶數(shù)據(jù)中做出的簡(jiǎn)單分析顯示,在四年前的 2020 年,實(shí)時(shí)計(jì)算的普及率還相對(duì)較低,基本都在 10% 以內(nèi)。大部分企業(yè)當(dāng)時(shí)仍然主要依賴于 T+1 的小時(shí)級(jí)離線分析。然而,預(yù)計(jì)下一年,金融行業(yè)實(shí)時(shí)計(jì)算的使用比例將超過 25%,物流行業(yè)的比例可能會(huì)超過 50%。因此,實(shí)時(shí)計(jì)算成為未來發(fā)展的一個(gè)關(guān)鍵考慮點(diǎn)。整個(gè)行業(yè)實(shí)時(shí)計(jì)算的用例預(yù)計(jì)都會(huì)超過 30%,這表明實(shí)時(shí)計(jì)算的普及率正處于一個(gè)迅速上升的階段。
四、總結(jié)
作為阿里云計(jì)算平臺(tái)的成員之一,除了今天討論的實(shí)時(shí)計(jì)算技術(shù)之外,還基于服務(wù)數(shù)萬+客戶的經(jīng)驗(yàn),沉淀出了面向未來的一套云上數(shù)據(jù)倉(cāng)庫(kù)參考架構(gòu)。這一架構(gòu)的設(shè)計(jì)旨在為客戶提供一套高效、可靠、可擴(kuò)展的數(shù)據(jù)處理與分析平臺(tái),以支撐大數(shù)據(jù)、人工智能和數(shù)據(jù)倉(cāng)庫(kù)等多種復(fù)雜應(yīng)用場(chǎng)景。
在未來的交流和分享中,我們將基于這一推薦的參考架構(gòu),深入探討如何有效地利用大數(shù)據(jù)技術(shù)、人工智能能力以及數(shù)據(jù)倉(cāng)庫(kù)功能,來幫助客戶解鎖數(shù)據(jù)價(jià)值,推動(dòng)業(yè)務(wù)成長(zhǎng)和創(chuàng)新。通過這些互動(dòng),我們希望與客戶共同探索和實(shí)踐最佳的云計(jì)算解決方案,以滿足客戶不斷變化的業(yè)務(wù)需求。