按系統功能分,不同的數據平臺對應著不同的常用軟件。在大數據興盛的今天,欲進軍數據界的你,應該對此有更進一步的了解。以下,大圣眾包威客平臺(www.dashengzb.cn)將為你推介。
1.數據挖掘模塊
作為一個跨學科的計算機科學分支,數據挖掘是用人工智能、機器學習、統計學和數據庫的交叉方法在相對較大型的數據集中發現模式的計算過程,屬于非傳統的數據處理。相對于傳統ETL數據處理,數據挖掘更側重于知識發現,其計算和規則也更加復雜。
【現階段常用的數據挖掘軟件】AnalysisService、KNIME、KXENAnalyticFramework、MicrosoftSQLServer、OracleDataMining、Python、R語言、RapidMiner、SAS、SPSS、Weka等。
2.ETL模塊
目前,對于傳統ETL,大部分ETL軟件都可以勝任;但是對于大數據下的ETL,ETL工具對其支持非常有限。
Informatica為大數據下的ETL開發推出InformaticaBigData版本,它將之前的Mapping翻譯為HQL腳本,從而在Hive引擎上執行。IBM的DataStage則通過相應BalancedOptimizer實現Mapping到Netezza、Oracle和DB2等專用數據庫的腳本翻譯,以利用不同的更為強大的數據處理引擎。TalendETL則把Mapping翻譯為SparkSQL,從而利用Spark引擎對數據進行處理。
【現階段常用的ETL軟件】IBMDataStageandQualityStage、InformaticaPowerCenter、MicrosoftIntegrationService、OracleOWB、PentahoDataIntegration(Kettle)、TalendETL等,主要表現為通過拖拽和配置的方式可視化、免編碼地完成ETL工作;腳本包括標準AWK、HQL、Java、Pig、PL/SQL、Python、Ruby、SparkSQL、SQL等,主要表現為通過特定的語法進行編碼實現ETL工作。
3.調度模塊
調度模塊,可以對企業內跨平臺和跨主機的軟硬件資源進行統一調度。這些資源包括ETL主機、數據交換主機、報表主機、數據庫主機、DQ主機、郵件服務器和打印機等。
【現階段常用的調度軟件】ApacheOozie、AsisinfoScheduleServer、AutoSys、BMCControl-M、成都塔斯克TaskCtl、JobServer、LinkedinAzkaban、MoiaControl等。這些調度軟件往往提供GUI和CLI的配置方式,但是在智能化配置方面支持極其有限。
4.數據交換模塊
數據交換模塊,包括數據導入和數據導出。數據導入包括文件日志接入、數據庫日志接入、關系型數據庫接入和應用程序接入等。
【現階段常用的數據交換軟件】文件日志接入可采用Flume等;數據庫日志接入則往往需要開發特定的插件來讀取MySQL、Oracle和SQLServer等的數據庫日志或變更表;關系型數據庫和NoSQL數據庫接入則使用ApacheSqoop、大眾點評wormhole、TaobaoDataX等;應用程序接入則通過應用程序對外接口進行接入。
5.報表模塊
報表工具的學習成本和開發難度比起手工編寫頁面來說,無疑更低,而且,它的開發周期和項目風險也得到了有效的控制。
【現階段常用的報表軟件】
BusinessObject、CrystalReports、FineReport、IBMCognos、JasperReport、MicrosoftReportService、MicroStrategy、Pentaho、Tableau等。這些報表軟件多數都提供了列表、交叉表、圖表、地圖和儀表板的能力。
6.監控模塊
監控模塊,可以對系統硬件(交換機、路由器和主機等的電力、通信、磁盤、內存、CPU等)、系統軟件(Web服務器、中間件服務器、數據庫服務器和緩存服務器等的資源、連接數和負載等)和數據(數據的一致性、穩定性和可靠性等)進行實時監控,發現問題及時告警甚至按預設方案自動進行處理。
【現階段常用的監控軟件】Argus、Cacti、Collectd、Ganglia、Monit、Munin、Nagios、Observium、Zabbix、Zenoss等。
7.DQ模塊
DQ模塊,主要對數據質量進行控制,包括源數據的質量檢查、數據清洗、數據融合和數據監控等,貫穿數據處理的整個生命周期。盡管DQ模塊非常重要,但是目前好些數據處理項目都沒有專門的DQ模塊,這些功能以腳本形式零散分布于不同的作業中。
【現階段常用的DQ軟件】AggregateProfilier、DataCleaner、IBMQualityStage、InformaticaDataQuality、InformaticaMasterDataManagement、StudioforDataQuality、TalendOpen等。
8.資產權限模塊
資產權限模塊,能夠統一對一些無形資產(企業的各種數據庫表、視圖、ETL作業、報表、郵件等)進行權限管控,保障信息安全和共享。該模塊完整實現的工作量還是比較大的,多數企業都會借助不同軟件自帶的權限管理能力,形成分散的資產權限模塊。
【現階段常用的資產權限軟件】并沒有完全開箱即用的資產權限模塊。
想要縱橫大數據世界,傍身技能必不可少,善用工具能讓你百戰不殆!
(更多大數據與商業智能領域干貨、或電子書,可添加個人微信號(dashenghuaer))