
大數據挑戰 多種執行、存儲引擎,分鐘、小時、天級的任務調度,怎樣梳理數據的時間線變化? 任務、表、列、指標等數據,如何進行檢索、復用、清理、熱度...
Job日志 mapred-site.xml配置任務執行日志路徑(hdfs) 作業啟動時,hadoop會將作業信息放在${yarn.app.map...
Broadcast是分布式的數據共享,由BroadcastManager負責管理其創建或銷毀。Broadcast一般用于處理共享的配置文件、通用...
SparkEnv中有兩個序列化的組件,分別是SerializerManager和closureSerializer SerializerMana...
Spark的度量系統有以下幾部分,也可以參照MetricsSystem類的注釋部分 Instance: 數據實例。Spark的Instance有...
Spark中很多組件都是靠RPC、事件消息機制實現通信的。前者解決遠程通信問題,后者則是本地較為高效的通信方式 定義ListenerBus Sp...
ThreadLocal的作用是提供一個線程的局部變量,比如context、session。是直接把某個對象在各自線程中實例化一份,每個線程都有屬...
創建Optional對象 Optional.empty():聲明一個空Optional Optional.of():依據一個非空值創建Optio...
這些接口都有一個@FunctionalInterface注解,表明這個接口將是一個函數式接口,里面只能有一個抽象方法 Function Func...