cluster的cpu用量監測系統壞掉,替代? - Linux

Table of Contents


學校的cluster system本來有一個Ganglia的cpu用量監測系統

但Ganglia最近壞掉無法即時監測遠端電腦的cpu使用狀況

cluster是使用"PBS"來派送任務

不知道有沒有替代的指令 可以監測node01~node20,

哪一個node的任務還沒跑完?

因為有的node可能硬體有些問題, 跑得比別人慢

我以前用Ganglia去監測很容易就知道是哪顆node特別慢

然後下次在script指定node的時候就會刻意跳過他

不知道除了Ganglia外 有哪些是不需要root也能執行的指令

讓我知道哪個node執行特別慢 導致整個計算任務倍那個node給拖累

感謝~~~~~




--

All Comments

Rosalind avatarRosalind2016-10-31
用pdsh叫每個node回報你user的process,不過這很土
Eartha avatarEartha2016-11-04
還有你是PBS Pro, OpenPBS, Torque?
Queena avatarQueena2016-11-04
如果你的 PBS 還在當然可以用 qstat …
Elizabeth avatarElizabeth2016-11-06
qstat無誤
Selena avatarSelena2016-11-07
感謝1F解惑 喔