當機怎麼查? - Linux

Table of Contents

本身是將桌機做backend 這些都是跑運算用的

裝的是Suse Linux Enterprise Server 11 sp2

我有將Xwindow關閉 也設定為開機不開啟

跑job跑一段時間就會沒回應 沒固定週期的沒回應

這裡指的沒回應就是當機

在電腦面前無論怎麼按鍵盤 螢幕就是沒畫面

沒有設定休眠

主機的power和CPU風扇都還在運轉

也無法在別的機器使用ssh login

網路也沒問題 因為強制重開機就正常了

有測過memtest86+ 都沒問題

硬碟也用HD TUNE測過 也無壞軌

過熱的狀況也排除 機房冷氣是大台水冷式的那種 設定是20度 走進去都會冷= ="

跑的軟體是Gaussian與VASP

在 /var/crash 無資料

還有哪裡可以去看當機的資訊?@@"

麻煩大家了...

--

All Comments

Frederica avatarFrederica2012-09-27
建議每隔幾分鐘把mem和swap使用率紀錄起來,有沒可能是
記憶體吃完了,swap又太小無法置換?
Frederic avatarFrederic2012-10-01
看syslog 你的狀況可能是像是樓上講的一樣
Sandy avatarSandy2012-10-05
我記憶體有12GB 一開始安裝有割swap為24GB 這樣會不夠嗎?
Noah avatarNoah2012-10-09
先想辦法留一個交談式的shell不斷線,最好一直跑著top之類
Una avatarUna2012-10-12
請問一下是雙通道但插3條記憶體嘛?? 4GBx3 ??
Aaliyah avatarAaliyah2012-10-17
這是三通道的 2G*6=12G
Carolina Franco avatarCarolina Franco2012-10-19
都是同週期的 也有跑過memtest86+ pass15次 我才關掉
Robert avatarRobert2012-10-24
我有看一台電腦跑2個禮拜還沒跑完 swap用不到5%
Mia avatarMia2012-10-27
同意一樓 曾經程式寫出bug把48G記憶體吃光 機器運作正常但
John avatarJohn2012-10-31
無法回應 所以你寫個小script去抓每五秒MEM資訊log下來看看
Dinah avatarDinah2012-11-01
會不會是程式有BUG?
Odelette avatarOdelette2012-11-03
可是同樣的input檔丟國網中心的超級電腦就沒問題
這問題困擾很久都無解>"<
Mason avatarMason2012-11-05
我試試看寫個script去抓mem的log 先感謝大家^^
Yedda avatarYedda2012-11-08
你也可以看你的程式在國網要吃多少記憶體啊 這樣比較簡單
Lydia avatarLydia2012-11-11
CPU一樣?會不會剛好給你碰到BUG XD
Bennie avatarBennie2012-11-14
CPU不一樣@@"
Suhail Hany avatarSuhail Hany2012-11-19
lib版本相同嗎?? XD 有沒限定特別版本...
Andrew avatarAndrew2012-11-21
像以前就只能在centos 5 跑,6效能就差很多... (舉例)
Suhail Hany avatarSuhail Hany2012-11-24
你也可以安裝ganglia套件,可查看即時系統狀態,非常好用
Aaliyah avatarAaliyah2012-11-25
沒有限制 只限定RedHat和SuSE
Genevieve avatarGenevieve2012-11-28
CPU都是I社或A社?
Suhail Hany avatarSuhail Hany2012-11-30
i7-920~i7-950都有 全都I社
Carolina Franco avatarCarolina Franco2012-12-05
自問自答..JOB太大 記憶體吃光光 所以電腦最後沒有回應了
還有一個大問題是 記憶體有插上去卻沒讀到
Joe avatarJoe2012-12-08
插了12G只讀到4G 跑MPI的時候 因那太記憶體不足
所以整個沒有回應
Poppy avatarPoppy2012-12-10
所以最後還是解決了
98年組的電腦 快102年才發現記憶體都沒讀到
Hedda avatarHedda2012-12-12
只能說廠商真是扯到爆 前人沒驗收 導致後人很無奈...