系統工程師該知道的31件事(15_請跟系統談心事_下)

最基本,也是最重要的事。不是『為什麼會失敗』,而是『如何才能成功』。

在檢查系統問題時,這是兩個不同的觀點,用那個觀點檢查,會有完全不同的結果。當然,最終一定都會找出Root Cause,但尋找的過程、方法和時間,則是大不相同。假設,電腦A 無法寄出E-mail,如果問『為什麼失敗』,那光用講的,應該可以講個三天三夜,關於『為什麼失敗。』

可是如果問『如何才能成功』。要能成功寄出E-Mail,『關鍵點』就只有幾個,只要先查這些『關鍵點』正常與否,答案差不多就出來了。原因無限多,但真相只會有一個。根據這樣的想法,我重新再確認了一次,「備份要如何才能成功」。

一、Client & Server 必需互通。
二、Client & Server 所有設定必需正確。
三、磁帶和磁帶櫃的狀態,必需是可讀寫。
.
.
.

自己在機房裡面列了大概十幾項之後,劃掉不需要再次確認的部份,以及再檢查Log一次。這一次,看出了一些端輗,傳送300個檔案中,有十個檔案無法傳送,要傳送這個檔案前,Client跟
Server的session會斷掉,斷掉後Client會重新連線,接著傳送下一個檔案。

發現這段log之後,再來要確定幾件事情。

一、固定的十個檔案無法傳送,還是隨機的檔案無法傳送。
二、所有Client都有這樣的狀況,還是部份的Client。
三、如果是部份的Client,這些Client有沒有什麼關聯?

就在這樣一層一層確認,並反覆測試後,發現某個特定網段裡的Client會有這樣的狀況,將原來有異常的Client網段,切換到其它網段後正常。另外,其它網段裡的Client也都正常。於是又得到了幾個重點。

一、隨機的檔案無法傳送。(跟Client設定無關)
二、部份Client才有這樣的狀況。(跟Client & Server設定無關)
三、只有某個網段裡的Client才有這樣的狀況。(疑似跟網路環境有關)

最後這個實際案例的Root Cause,確定是在網路,而不是軟體本身的設定。

以前有同事跟我說「他們的網路環境,關我們什麼事,因為網路問題,造成不能備份,還要我們去查,去舉證哦?」

我同事說的很正確,但這個社會並不是這樣在運作的。我們要做的就是將非我們因素造成的狀況,舉證出來,接下來就看誰該去負責處理,把整個事情完成,這樣案子才能順順利利的走下去。(雖然去年我的想法也跟我同事差不多…差點被洗腦成功。)

有同事問我「我怎麼會知道,怎樣才能正常備份。」

這問題我到現在還沒回答他,因為這不是問題啊! 如果我負責的產品是防火牆,我應該要知道,該怎麼設定防火牆,網路才能正常運作。在防火牆policy 裡面,不可能第一條policy 就設定 『deny all any any』,是吧?

如果我是負責網路監控,我應該要知道SNMP v1/v2/v3 的差異吧?

如果我是負責主機安裝及OS建置,總要知道該如何在BIOS裡面,設定從光碟機開機吧?

如果這些都不知道,那…要怎麼知道『怎樣才能正常備份』?

如果不知道,那備份系統、網路監控系統或防火牆出現異常狀況時,我們又該如何傾聽系統的聲音(註:意指看Log及相關檢測)。

就好像,如果我完全不了解太陽女王,那…….是吧!

PS:
1. 不管您認不認同,這個行業的工程師,需要和系統談心事。但請您切記,一定要跟身邊重要的人,想一起走完這輩子的人,好好喝咖啡、聊是非。

2.工作是做不完的,只要努力,就能找到自己喜歡的工作。

3.好伴侶是可遇不可求的,有時就算努力一輩子,也遇不到一位。請不要以工作很忙為由,而忽略了您身邊重要的人哦!

(待)

2012/10/12 SunAllen

您可能也會喜歡…