發布日期:2022-07-14 點擊率:60
4.總在正常運行
虛擬化的悖論是:它消除了對硬件的依賴,但同時也使硬件更為重要。虛擬機的合并更加依賴硬件的可靠性,因為更少的物理服務器現在要支持一個虛擬機的大集合。
關鍵業務應用對一個公司的運營是至關重要的。當一臺服務器必須支持多個工作負荷時,作為合并業務處理的一部分來看,甚至非關鍵應用也變得至關重要。
雖然有多種解決方案可以提高應用的可靠性,容錯提供了一種基于硬件的方法,能夠確保連續的正常運行時間。
9的個數
如果100%的是完美的話,那么+%的可用性算佳了。解決方案怎么做才能達到這個指標?先試試最普通老的99%吧!這是正確的做法, x86服務器往往能讓其上運行的服務平均達到99%的可用性。這看起來相當不錯,直到你認為這對你的組織意味著什么。兩個9的可用性意味著系統在一年中的意外停機時間達到了87.6小時–而你決不會希望有這些小時!現在來考慮一下停機一小時的成本:一般公司的損失在10萬至15萬美元之間。你可以自己算算。
可以比較容易地達到三個9:99.9%。它所需要的一臺好服務器只需帶有冗余電源、風扇和一個磁盤陣列(RAID),再加上最佳實踐。你可以得到三個9,相當于每年有小時的意外停機時間。這看上去似乎是一個大的躍進,但在高峰處理時段的停機時間仍然嚴重地突破了你的底線。
再上一個等級為%的正常運行時間往往需要集群技術。通常稱為高可用性(HA)解決方案。失效后,集群會在一個健康的系統上重啟應用。有些集群方案聲稱自己達到了%,但一年只有52分鐘的停機時間方案需要一種真正精心打造的集群,使應用能夠非常迅速地進行故障切換。許多常見的集群應用,如數據庫無法迅速地進行故障切換,因為出現失效后,他們必須檢查文件的完整性和重放事務日志。
所以任何系統的最佳是五個9:即%的可用性,它多增加了一個9,那么一年的停機時間就成了五分鐘!為了達到這個數字,你首先需要避免系統失效,而不是試圖從中恢復。看一看圖4-1,讓你有個視覺感受。
圖4-1:9的個數表。(每年的成本是按照每小時意外停機損失10萬美元計算)。
所以你認為需要容錯
術語高可用性和容錯能力在所有的時間都在交替使用,這會導致混亂。傳統的HA解決方案通常包括數據復制或旨在從失效中恢復的集群。然而,在這些情況中,系統失效確實發生了。為了從失效中恢復,應用要在一個健康的系統上重新啟動。在大多數情況下,這需要應用具有集群感知,這可能包含你IT人員編寫的腳本。在容錯服務器中,每一個組件為雙份并在各自的硬件中同步地運行。這意味著這些組件在同一個CPU時鐘周期上處理相同的指令。如果某一部分出現故障,它的對應伙伴能保持正確的處理。這就是為什么一個容錯的服務器系統并沒有故障切換或重新啟動。
容錯也保證了所有的數據是可用的,甚至當硬件組件故障,數據寫入了磁盤或是內存(稱為飛行中的數據)。
不是所有的容錯結構都相同。一些虛擬化方案用軟件模擬容錯,但這有幾處缺點。首先,它本質上創建了另一個影子虛擬機(VM),在一個基于軟件的環境中步調一致地處理指令。軟件仿真會引發硬件大量的開銷。這會大大地影響性能,因為CPU不得不處理這種負載。至于對過去單一CPU內核能力的擴展也會有限制,肯定不適合那些高消耗的業務應用和數據庫。
相比之下,有些體系結構是基于全功能的硬件容錯。這種系統從一開始就作為容錯平臺而設計。應用程序能夠充分利用多核對稱多處理的優勢。硬件容錯確保了性能最大、正常運行時間最長和數據保護最全。
硬件容錯等于正常運行時間
硬件容錯的產品和服務旨在自動防止停機和數據丟失。這種先進的正常運行時間使用了獨有的技術,有多年保證關鍵應用不停機運行的經驗和歷史。
今天,硬件容錯的客戶使用即插即用功能確保正常運行時間而獲益,實現了物理服務器、虛擬服務器或云計算(見圖4-2)的無后顧之憂。
圖 4-2: 確保正常運行時間
這些集成的正常運行時間技術嵌入到每一臺容錯服務器產品和服務中,保證了在所有時間上的正常運行時間:
● 彈性容錯服務器硬件:雙重步調一致的硬件能承受會導致其他服務器崩潰的故障。
● 自動化正常運行時間層:預測技術持續監視上百個系統組件和傳感器,自動識別、隔離、處理和報告問題–在它們會導致停機或數據丟失之前。
● 主動可用性監控和管理:硬件容錯正常運行時間的專家在一個安全的全球網絡上遠程監視系統。利用由自動化正常運行時間層提供的信息,這些專家可提供24/7遠程診斷并修復復雜的問題。
5.服務是容錯的關鍵
無論怎樣精心設計組件,偶爾的失敗在所難免。幾乎每個IT人都明白這一點,但真正的衡量標尺是你如何處理它。硬件容錯防止停機的第一道防線是嵌入到每個系統的組件怎么做。彈性服務器可以跨過許多錯誤。如果某個部件發生故障時,系統能繼續運行,并自動“告知家里”,報告問題并要求更換組件。
跟著太陽轉7/24/365
在清醒的時候,對大多數人來說都是最好的時間。隨著新的虛擬化主機上運行多個關鍵業務VM,你可不能高枕無憂了。
但是,如果你需要一種良好踏實的睡眠,則需要找到一個容錯的服務器。有了硬件容錯的服務器系統,你就可以安穩入眠了。在7/24/365中,這些服務器被一個安全的全球主動服務網絡所監視。
利用自動化正常運行時間層提供的信息,硬件容錯服務專家幾乎能夠解決所有的問題,使你的系統保持連續正常地運行。不需要等待維修技術人員的到達,能讓你的業務返回正常。
在故障之前就修復
盡管系統有時可能像電腦故障產生黑屏,在發生這種情況以前,通常都會有跡象指示。諸如像組件的溫度、風扇的轉速和硬盤驅動器的錯誤等,所有這些都預示著失效要發生。關鍵是要引起注意并跟蹤這些指標,然后把它們聚集在一起。大多數人都不是很擅長于此,因為這需要大量的細節工作。一個CPU中1度的溫差似乎不是一個問題-- 如果環境溫度可以接受的話,系統不會負擔過重;但如果CPU溫度攀升,有可能一個問題正在醞釀。每個硬件冗錯服務器有一個內置的自動正常運行時間層,充當防御停機的第一道防線。它跟蹤和提醒你團隊可能被忽略的多個重要細節。
自動化正常運行時間層不斷監視500多個系統組件和傳感器,識別、處理和報告故障–在它們影響你的業務應用之前。這就像有一個專門的技術人員監視服務器。這種虛擬技術人員永遠不會疲倦,永不懈怠,始終著眼于大局,提供根本原因并分析數據。
告知家里
即使是最熟練的技術人員每過一段時間也會達到其技術的極限,這時最好尋求幫助。就像與人交往,尋求幫助是一種技能和成熟的標志,而不是弱點。尋求一臺服務器幫助,要比找到設計它的人員會更好。這就是為什么硬件容錯服務器會自動“告知家里”,到客戶服務中心(CAC)去報告硬件和軟件問題。所以當糟糕的事情發生時,信息立即發送到可以修復它的人。即使一個組件發生故障,一個硬件容錯服務器系統還能繼續運行,且不會降低性能、數據丟失或即使有最微不足道的停機時間。
所有部分做成了一個容錯的系統
一個關于容錯系統的最好和最壞的事情就是:在一個組件故障后,系統保持工作并且沒有人知道。這讓客戶很開心,但即使沒有引起你的足夠關注,硬件容錯服務器也會通知你。這就是為什么這種全功能硬件容錯服務器的功能能夠超過商用服務器和服務器集群。
硬件容錯架構在軟件故障和單項硬件組件失效時保護了組織。雖然冗余是一個方面,還有更多的容錯工作,而不僅僅是硬件設計。它包括硬件、軟件和服務技術的協同工作,防止停機和數據丟失。
如果用戶是那些需要馬上入睡的人,使用了硬件容錯服務器系統,用戶不需要改變自己的職業生涯,在一個全功能的容錯服務器上虛擬化關鍵業務應用和數據庫,對用戶和組織機構都是一件幸事!
(羅克韋爾自動化(中國)有限公司 華镕)
下一篇: PLC、DCS、FCS三大控
上一篇: 云Wi-Fi技術在重圍中