搭建集群

0x00 安裝配置過程

本著“跟著官方走準沒錯”的信條,下載源碼按照torqueAdminGuide-6.1.1.pdf的描述一步步安裝依賴和Torque主體即可。下面都是在非root用戶下操作。

  • Torque主要分三個部分:Server、Schd和mom。在管理節點上只裝Server和Schd即可(./configure時--disable-client --disable-mom,更多參數見P35),記得按說明加上對應的service。當然在管理節點上面也可以安裝mom用作計算節點,不需要其它操作了,如下圖。


    image.png
  • 針對上一條,./configure部分里說的“至少要加上……參數”(也就是下圖所示)可以無視了,實際裝的時候只把cgroups(后面會要求在計算節點上裝這個)和hwloc裝上了,但沒加這倆參數,最后也能跑起來。

    image.png

  • 管理節點搞定后,用下面命令生成計算節點所需的安裝腳本torque-package-clients-linux-x86_64.shtorque-package-mom-linux-x86_64.sh

make packages

把這倆scp到所有計算節點上,執行(加參數--install)安裝。然后按照說明加上對應的service,以后啟動起來很方便。(見P17,還會讓裝croups)

torque-package-clients-linux-x86_64.sh --install
torque-package-mom-linux-x86_64.sh --install
  • 接下來對服務器進行初始化。有兩種方式,這里采用的是執行腳本,省心一些。
qterm
sudo ./torque.setup <non-root user name>
  • 下面的幾步很關鍵,關系到管理節點和計算節點能否相互溝通。(之前源碼裝的時候采用了默認路徑)
    • 在管理節點路徑/var/spool/torque/server_priv/nodes(需要權限,該文件需要手動創建)寫入集群中計算節點的hostname,格式如下,一行為一個節點:(注:node-name為節點的主機名hostname,詳見P25)當然把管理節點寫進去也沒影響。
node-name[:ts] [np=] [gpus=] [properties]
  • 在所有計算節點的路徑/var/spool/torque/mom_priv/config(需要權限,該文件需要手動創建)寫入管理節點信息,一般寫如下內容即可,讓計算節點明確誰是管理節點:(多了我也不懂:()
$pbsserver <server-hostname>
$logevent 255
  • 在所有節點的/etc/hosts文件里把整個集群的ip和hostname對應關系寫好,很簡單不舉例了。寫完之后用hostname作為目標ping測試一下,能通就行。

    • 最最重要的的一步,很簡單也最容易被忽略:把所有節點的實際hostname改成nodes、config、hosts那些文件里對應的,否則無法實現torque功能。查了半天log才發現這個問題。
  • 有個據稱是計算節點用來溝通的daemon:trqauthd。 按照P35在所有節點上都把這個服務跑起來。

0x01 運行及測試

  • 現在去確認:管理節點上運行了pbs_server、pbs_schd、trqauthd,計算節點上運行了pbs_mom、trqauthd。沒有的話就restart把它們跑起來。
[example]
sudo service [service name] resart
  • 都完成之后,參見P56創建一個queue(沒創建時也會存在一個默認隊列batch)并測試整個集群是否正常運行。
    • 在這個過程中會對queue參數進行查看。想要更改的話格式如下(具體的屬性選項見PDF):
[example]
qmgr -c 'set queue <queue name> <properties as it in pdf>
qmgr -c 'set server <properties as it in pdf>
  • 運行“pbsnodes -a”命令后要確認各計算節點的state均為free,否則集群無法正常運作。
  • 嘗試PDF中的“echo "sleep 30" | qsub”進行作業提交后,由于本文前面已確認了pbs_schd服務的運行,故查看隊列狀態結果應如下(30秒內狀態S都是R,而PDF中那時pbs_schd服務未運行,故寫的是Q,要注意):
> qstat
Job id          Name   User          Time Use  S  Queue 
------          -----  -----------   --------  -- ----
0.<server name> STDIN  <user name>          0  R  batch

0x02 遇到的一些坑和有用的tips

  • 遇到任何看不懂的情況和PDF沒提的情況,勤看log日志,日志里的情況去搜一下基本都懂了:
    • 服務節點:/var/spool/torque/server_log/<對應日期>
    • 計算節點:/var/spool/torque/mom_log/<對應日期>
  • 把所有節點的實際hostname改成nodes、config、hosts那些文件(前文都有提及)里對應的,否則無法實現torque功能。查了半天log才發現這個問題。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,698評論 6 539
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,202評論 3 426
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,742評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,580評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,297評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,688評論 1 327
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,693評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,875評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,438評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,183評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,384評論 1 372
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,931評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,612評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,022評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,297評論 1 292
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,093評論 3 397
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,330評論 2 377

推薦閱讀更多精彩內容