by Joseph Wu
6. October 2011 15:10
我之前寫的文章「Intel Modular Server System MFSYS25 排除新舊模組共用所產生的錯誤」,雖然當下看似解決問題,但爾後做進一步設定時又發生了錯誤。
我們打算採取之前文章所提及的第 5 個步驟,即 “更換整座刀鋒伺服器”
我做了什麼設定?
→ 將其中二台 Web Server 加入 NLB node
→ 加入網域
發生了什麼事?
→ 和上篇文章一樣於刀鋒伺服器上產生 Unfit 錯誤事件
→ 無法使用做 NLB 的網卡
這部份牽扯到的技術層次都是我比較不了解的,在請教硬體提供商之後,有幾點是以後升級 firmware需要注意的。
1、所有模組要綁在一起升級
2、避免 2 座刀鋒中的模組互相使用 (雖然這在邏輯上看來是沒問題,但實際上還是發生了)
在更換整座刀鋒伺服器的過程中,也有幾點必須特別注意:
1、硬碟務必按照順序插拔,並且一定要在關機的時候安裝,安裝完畢後才能開機 (RAID 資訊都是建立在硬碟上,所以即使 SCM 換新的,也不影響 RAID )
2、SWM 設定必須記錄下來。 (如果置換新的 SWM,所有網路設定必須重新來過)
3、CMM 設定必須記錄下來。 (如果置換新的 CMM,IP、帳戶、SMTP、……等設定必須重新來過) 4、網路線與電源線位置在拔掉之前,記錄原先插入的位置
大致上就是這樣了,雖然每個步驟都不難,但是務必確保不能搞錯步驟操作內容及順序,否則後果,真的是難以想像。
by Joseph Wu
28. September 2011 16:27
我們客戶有 2 組 Modular Server ,最近因為要做 consolidation ,所以 2 組 Modular Server 都升級至最新的 firmware 。 2 組 Modular Server 是在不同時期採購,假設舊的是 A、 新的是 B。
我遇到了一個狀況,A 上面的刀片嵌入至 B 後,沒過多久就打 X 了 (出現 unfit 的錯誤,即 Management Module 無法針對刀片進行操作, ex: remote KVM),如下圖:
在我和硬體廠商討論後,有了下列的一些做法:
1、重開整座刀鋒,讓所有的模組重開 (當然也包括發生錯誤的刀片模組)
2、強制讓刀片重刷 firmware (這比較麻煩些,操作說明如下):
(1) 從下面的圖可以看到,如果要重刷 BIOS 的話,必須將 Jump 接到 2、3 的位置,其它就大同小異
(2)整個刀片的平面圖 (在左下角)
(3)刀片的左下角部份圖
(4) Jump 所在位置圖
3、置換 Management Module
4、整座伺服器重新刷一次 Firmware
5、更換整座刀鋒伺服器
但是每種做法的時間長短不一,有些方法是不適合用在正式上線的機器的,根據上述 4 種方法分別的時間如下:
1、關伺服器 + 關閉/開啟 Modular Server + 開伺服器 = 30分
2、關伺服器 + 置換 Jump + 開伺服器 = 30 分
3、關伺服器 + 置換 Management Module + 開伺服器 = 30 分
4、關伺服器 + 重刷 firmware + 開伺服器 = 2小時
5、關伺服器 + 重新安裝組件(ex: 從舊機箱上拔出所有刀片、並嵌入新的機箱) + 重新設定 (如果只換機殼 chassis,這個部份的時間可以省略) + 開伺服器 = 1 ~ 1.5 小時
好在,我們在第 3 個步驟時就成功了,如果要做到重刷韌體的話,可能就要等過年了。