標簽: crontab 調度
雖然現在越來越多的開源機器學習工具支持分布式訓練,但分布式機器學習平臺的搭建和運維的門檻通常是比較高的。另外一方面,有一些業務場景的訓練數據其實并不是很大,在一臺普通的開發機上訓練個把小時足矣。單機的機器學習工具使用起來通常要比分布式平臺好用很多。
特征工程在機器學習任務中占了很大的一部分比重,使用hive sql這樣的高級語言處理起來比較方面和快捷。因此,通常特征工程、樣本構建都在離線分布式集群(hive集群)上完成,訓練任務在數據量不大時可以在gateway機器上完成。這就涉及到幾個問題:
- gateway機器上的daily訓練任務什么時候開始執行?
- 模型訓練結束,并對新數據做出預測后如何把數據上傳到分布式集群?
- 如何通知后置任務開始執行?
對于第一個問題,理想的解決方案是公司大數據平臺的調度系統能夠調度某臺具體gateway上部署的任務,并且可以獲取任務執行的狀態,在任務執行成功后可以自動調度后置任務。然而,有時候調度系統還沒有這么智能的時候,就需要我們自己想辦法解決了。Crontab是Unix和類Unix的操作系統中用于設置周期性被執行的指令的工具。使用Crontab可以每天定時啟動任務。美中不足在于必須要自己檢查前置任務是否已經結束,也就是說我們要的數據有沒有產出,同時還要有一個讓后置任務等待當前任務結束的機制。
檢查前置任務是否已經結束
如果前置任務是hive任務,那么結束標志通常是一個hive表產生了特定分區,我們只需要檢查這個分區是否存在就可以了。有個問題需要注意的是,可能在hive任務執行過程中分區已經產生,但任務沒有完全結束前數據還沒有寫完,這個時候啟動后續任務是不正確。解決辦法就是在任務結束時為當前表添加一個空的“標志分區”,比如原來的分區是“pt=20170921”,我們可以添加一個空的分區“pt=20170921.done”(分區字段的類型為string時可用),或者“pt=-20170921”(分區字段的類型為int時可用)。然后,crontab調度的后置任務需要檢查這個“標志分區”是否存在。
function log_info()
{
if [ "$LOG_LEVEL" != "WARN" ] && [ "$LOG_LEVEL" != "ERROR" ]
then
echo "`date +"%Y-%m-%d %H:%M:%S"` [INFO] ($$)($USER): $*";
fi
}
function check_partition() {
log_info "function [$FUNCNAME] begin"
#table,dt
temp=`hive -e "show partitions $1"`
echo $temp|grep -wq "$2"
if [ $? -eq 0 ];then
log_info "$1 parition $2 exists, ok"
return 0
else
log_info "$1 parition $2 doesn't exists"
return 1
fi
log_info "function [$FUNCNAME] end"
}
如果前置任務是MapReduce或者Spark任務,那么結束標志通常是在HDFS上產出了一個特定的路徑,后置任務只需要檢查這個特定路徑是否存在就可以。
## 功能: 檢查給定的文件或目錄在hadoop上是否存在
## $1 文件或者目錄, 不支持*號通配符
## $? return 0 if file exist, none-0 otherwise
function hadoop_check_file_exist()
{
## check params
if [ $# -ne 1 ]
then
log_info "Unexpected params for hadoop_check_file_exist() function! Usage: hadoop_check_file_exist <dir_or_file>";
return 1;
fi
## do it
log_info "${HADOOP_EXEC} --config ${HADOOP_CONF} fs -test -e $1"
${HADOOP_EXEC} --config ${HADOOP_CONF} fs -test -e "$1"
local ret=$?
if [ $ret -eq 0 ]
then
log_info "$1 does exist on Hadoop"
return 0;
else
log_info "($ret)$1 does NOT exist on Hadoop"
return 2;
fi
return 0;
}
其實,hive任務的表的內容也是存儲在HDFS上,因此也可以用檢查HDFS路徑的方法,來判斷前置hive任務是否已經結束。可以用下面命令查看hive表對應的HDFS路徑。
hive -e "desc formatted $tablename;"
循環等待前置任務結束
當前置任務還沒有結束時,需要循環等待。有兩種方法,一種是自己在Bash腳本里寫代碼,如下:
hadoop_check_file_exist "$hbase_dir/$table_name/pt=-$bizdate"
while [ $? -ne 0 ]
do
local hh=`date '+%H'`
if [ $hh -gt 23 ]
then
echo "timeout, partition still not exist"
exit 1
fi
log_info "$hbase_dir/$table_name/pt=-$bizdate doesn't exist, wait for a while"
sleep 5m
hadoop_check_file_exist "$hbase_dir/$table_name/pt=-$bizdate"
done
第二種方法,是利用crontab的周期性調度功能。比如可以讓crontab每隔5分鐘調度一次任務。這個時候需要注意的是,可能前一次調度的進程還沒有執行結束,后一次調度就已經開始。這個時候可以使用linux flock文件鎖實現任務鎖定,解決沖突。
flock [-sxon][-w #] file [-c] command
-s, --shared: 獲得一個共享鎖
-x, --exclusive: 獲得一個獨占鎖
-u, --unlock: 移除一個鎖,通常是不需要的,腳本執行完會自動丟棄鎖
-n, --nonblock: 如果沒有立即獲得鎖,直接失敗而不是等待
-w, --timeout: 如果沒有立即獲得鎖,等待指定時間
-o, --close: 在運行命令前關閉文件的描述符號。用于如果命令產生子進程時會不受鎖的管控
-c, --command: 在shell中運行一個單獨的命令
-h, --help 顯示幫助
-V, --version: 顯示版本
其中,file是一個空文件即可。比如,crontab文件可以這樣寫:
*/5 6-23 * * * flock -xn /tmp/pop_score.lock -c 'bash /home/xudong.yang/pop_score/train/main.sh -T -p -c >/dev/null 2>&1'
如果使用這種方法,腳本里面檢查前置任務沒有結束時就直接退出當前進程即可,像下面這樣:
hadoop_check_file_exist "$hbase_dir/$table_name/pt=-$bizdate"
if [ $? -ne 0 ]; then
log_info "$hbase_dir/$table_name/pt=-$bizdate doesn't exist, wait for a while"
exit 1
fi
雖然文件鎖能解決crontab調度沖突的問題,但是我們只希望腳本被成功執行一次,任務結束之后,后續的調度直接退出。還有一種情況需要考慮,有可能crontab調度的任務的正在運行,這個時候我們自己也手動啟動了同樣的任務,如何避免這樣的沖突呢?
無非就是要有個標記任務已經成功運行或者正在運行標識能夠在腳本里讀取,如何做到呢?對就是在指定目錄下建立特定名稱的空文件。在腳本開始的時候堅持標記文件是否存在,存在就直接退出。在任務正常運行結束的時候touch成功執行的標記。結構大概如下:
# 變量定義等
......
[ -f $data_home/$bizdate/DONE ] && { log_info "DONE file exists, exit" >> $log_file_path; exit 0; }
[ -f $data_home/$bizdate/RUNNING ] && { log_info "RUNNING file exists, exit" >> $log_file_path; exit 0; }
touch $data_home/$bizdate/RUNNING
trap "rm -f $data_home/$bizdate/RUNNING; echo Bye." EXIT QUIT ABRT INT HUP TERM
# do something here
......
if [ -f $data_home/$bizdate/RUNNING ]
then
mv $data_home/$bizdate/RUNNING $data_home/$bizdate/DONE
else
touch $data_home/$bizdate/DONE
fi
exit 0;
有了RUNNING標記就不怕手動執行任務時和crontab調度沖突了;有了DONE標記就不怕每天的任務被調度多次了。
從分布式集群下載數據
從hdfs下載數據的函數:
## 功能: 將hadoop上的文件下載到本地并merge到一個文件中
## $1 hadoop葉子目錄 或 文件名--支持通配符 (*)
## $2 本地文件名
## $? return 0 if success, none-0 otherwise
function hadoop_getmerge()
{
## check params
if [ $# -ne 2 ]
then
log_info "Unexpected params for hadoop_getmerge() function! Usage: hadoop_getmerge <hadoop_file> <local_file>";
return 1;
fi
if [ -f $2 ]
then
log_info "Can not do hadoop_getmerge because local file $2 already exists!"
return 2;
fi
## do it
${HADOOP_EXEC} --config ${HADOOP_CONF} fs -getmerge $1 $2;
if [ $? -ne 0 ]
then
log_info "Do hadoop_getmerge FAILED! Source: $1, target: $2";
return 3;
else
log_info "Do hadoop_getmerge OK! Source: $1, target: $2";
return 0;
fi
return 0;
}
HIVE表里的數據也可以先找到對應的HDFS目錄,然后用上面的函數下載數據,唯一需要注意的是,HIVE表必須stored as textfile,否則下載下來的數據不可用。
萬一hive表不是已文本文件的格式存儲的怎么辦呢?不要緊,還是有辦法的,如下:
mkdir -p $data_home/$bizdate/raw
declare sql="
set hive.support.quoted.identifiers=None;
insert overwrite local directory '$data_home/$bizdate/raw'
row format delimited fields terminated by '\t'
select \`(pt)?+.+\` from $table_name where pt=$bizdate;
"
log_info $sql
$hive -e "$sql"
上傳數據到分布式集群
模型訓練和預測之后,必須把預測數據上傳到分布式集群,以便后續處理。
local create_table_sql="
create table if not exists $target_table_name (
......
)
partitioned by (pt int)
row format delimited fields terminated by '\t'
lines terminated by '\n'
stored as textfile;
"
log_info $create_table_sql
$hive -e "$create_table_sql"
local upload_sql="load data local inpath '$data_home/$bizdate/$predict_file' into table $target_table_name partition(pt=${bizdate});"
log_info $upload_sql
$hive -e "$upload_sql"
通知后置任務開始執行
其實crontab沒法通知后置任務當前任務已經結束,那怎么辦呢?
把真正的后置任務加一個前置依賴任務,而這個依賴任務是部署在調度系統上的一個shell任務,該任務的前置任務是crontab調度任務的前置任務,并且這個任務做的唯一一件事情就是循環檢查crontab調度任務的數據有沒有產出,已經產出就結束,沒有產出就sleep一小段時間之后再繼續檢查。
check_partition $table_name $bizdate
while [ $? -ne 0 ]
do
sleep 5m
hh=`date '+%H'`
if [ $hh -gt 23 ]
then
echo "timeout, partition still not exist"
exit 1
fi
check_partition $table_name $bizdate
done
那些年,我們踩過的坑
一、crontab調度任務不會自動export環境變量
開始的時候,手動執行腳本正常運行,但是crontab調度每次都會在hadoop fs -test -e $path
命令執行出錯,表現為明明$path
已經存在,但指令總是返回1,而不是0 。經過苦苦排查之后才發現,hadoop依賴的環境變量JAVA_HOME和HADOOP_HOME沒有在腳本里導入。而用戶在終端里登錄到服務器上時,這2個環境變量是自動導入的。所以,務必記得在腳本開始的時候就導入環境變量:
#!/bin/bash
export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=...
二、crontab調度任務不能寫太多標準輸出,否則任務會在某個時刻自動中斷
這個也挺坑的,務必記得在crontab的指令里重定向標準輸出和標準錯誤到一個文件里,或者重定向到unix的黑洞/dev/null
里。
*/5 6-23 * * * flock -xn /tmp/pop_score.lock -c 'bash /home/xudong.yang/pop_score/train/main.sh -T -p -c >/dev/null 2>&1'
這里推薦在腳本使用tee命令同時輸出日志到終端和文件,這樣用戶手動執行的時候可以直接在終端里看到程序的執行情況,crontab調度里可以查看日志文件來排查問題。當然,輸出到終端的部分,在使用crontab調度時需要重定向到黑洞里。
main | tee -a $log_file_path 2>&1
if [ ${PIPESTATUS[0]} -ne 0 ]
then
log_error "run failed."
exit 1;
fi