近年來,地震、海嘯等自然災難頻發(fā),使得信息系統(tǒng)的容災系統(tǒng)建設成為各行業(yè)IT建設的重中之重。然而,不同的容災系統(tǒng)建設技術與繁復的建設過程讓許多IT管理者出現(xiàn)了放多不解現(xiàn)象和困惑。
如果企業(yè)能夠在建立容災系統(tǒng)的初始階段就清楚的了解容災的有關概念和技術實現(xiàn)手段,那么企業(yè)容災系統(tǒng)建設的速度就會大大加快,并且能夠做到有的放矢,提高容災系統(tǒng)建設和應用的效率與投資回報率。
經過多年的容災系統(tǒng)建設經驗的積累,飛康總結出用戶在容災系統(tǒng)建設中經常遇到的難點問題,并提出了解決方案,希望可以對企業(yè)的容災系統(tǒng)建設有所幫助。
災備系統(tǒng)首要防范的災難
容災備份體系建設可以從很多個角度去考慮,但其中最重要的一項,是哪些災難類是用戶首要考慮防范的,這些災難對于RPO/RTO指標有什么具體的要求等。
一談到災難的防御范圍,大家習慣性的會重點考慮一些硬災難,包括服務器、存儲等硬件設備損壞造成的宕機;地震、火災、機房進水等造成的機房失效,也有空調損壞、多站供電斷電等意外;甚至當瘟疫蔓延時機房無法進入等極端情況。這類災難一般被稱為“‘硬’性災難”或“站點級災難”,即整個站點失效,從而整個站點所提供的服務中止。
此外,還有很多非硬性的災難。這類災難發(fā)生后,雖然建筑、設備、人員都是無損的,但整個站點同樣失效,整個站點所提供的服務同樣被中止。我們將這類災難稱為“‘軟’性災難”或“類站點級災難”。它們帶來的后果同樣是災難性的、甚至更加嚴重。這種災難主要是由于一些惡意行為:如外部黑客攻擊、內部高技術手段進行破壞以及一些人為的誤操作(包括系統(tǒng)維護失誤、誤刪除重要數(shù)據(jù)、打入沖突系統(tǒng)補?。┑?。
硬性災難或站點級災難的發(fā)生是管理人員能夠即刻發(fā)現(xiàn)的,造成的損失大多可以立刻評估、處理。而軟性災難或類站點級災難大部分是無法被管理人員立時發(fā)現(xiàn),因此造成的損失一般要遠遠大于前者。而且,軟件性災難的恢復非常麻煩,需要企業(yè)投入更多的資源、承擔更多大的風險去解決。
傳統(tǒng)容災技術從誕生至今,已發(fā)展十數(shù)年未曾改變。這些傳統(tǒng)容災技術在幫助用戶分析災難時通常會刻意強調硬性災難或站點級災難的防御,而處處回避軟性災難或類站點級災難,并將這些更具破壞性的災難類型推卸給備份技術而逃避容災規(guī)劃中最重要的環(huán)節(jié)。
無論技術如何發(fā)展,用戶對災難防御范圍的要求卻始終如一:防御所有類型的災難是容災系統(tǒng)建設的首要目標!因此,找到一種能夠全面防災、時時做到‘有災即有備’的災備技術,成為用戶災備建設成功與否的基點。
災備建設的成本
建設一個完備的災備系統(tǒng)到底需要投入多少資金呢?投入巨資建設的一個災備系統(tǒng)到底值不值呢?很多企業(yè)都對災備建設成本的問題最為關心。
在一個災備項目,目標、規(guī)模、風險、成本這幾重因素總是緊密關聯(lián)在一起的。災備項目的成本是由前三者綜合決定的。在災備建設中,首先要考慮的是建設目標,一般而言,災備建設目標中,我們需要考慮災難的防御范圍、恢復的效果,還需要考慮是否建設能夠防御大型災害的異地災備系統(tǒng)(還是僅僅同城)等。當我們對于災難防御的目標胸有成竹之后,我們就需要考慮建設成本了。
以往,很多人認為災備建設的成本只是購買災備設備的費用,而在實踐中,卻因為估計不足吃了大虧,根本原因是沒有把災備建設的總體擁有成本計算清楚。
要想搞清災備建設的總體擁有成本,我們看看以下幾個元素:
1) 場地費用:包括災備機房基礎設施費用,災備中心人員費用等。
2) 設備費用:包括購買的災備存儲、交換機、路由器、協(xié)議轉換器、主機等各種設備的費用。這些費用由于容災技術方案的不同,組成元素完全不同。
3) 傳輸網絡費用:這一部分費用隨著災備技術路線的不同更是差距明顯。尤其在異地災備體系的建設中,災備技術路線的不同導致的傳輸帶寬評估有時令人難以置信,可以相差達到40倍的帶寬差異。例如,采用不同的技術,也可能只需要每年支付20萬的傳輸網絡費用,也可能需要支付每年200萬的網絡費用,而實際效果卻完全相同。
4) 運維費用:這部分的費用包括向廠商購買的每年服務和應急的專業(yè)服務費用,還包括高級別的系統(tǒng)維護人員的費用。一般而言,隨著設備開放性的增加,維護人員的成本就相應下降,而災備應急如果能夠掌握在用戶手中,災難應急時向廠商購買的專業(yè)服務費用就減少。
綜合考慮以上幾個方面的因素,用戶就可以比較準確的計算出容災系統(tǒng)建設的整體擁有成本,并能做出合理的取舍,甚至能立刻做出建同城災備還是異地災備的選擇。
還有人認為,容災設備的采購成本和機房建設成本加起來就是容災系統(tǒng)建設的總成本。但實際情況是,容災設備 的采購可能只需要600--700萬,而用戶每年要支付的網絡傳輸成本可能高達200萬,5年下來,網絡費用早已超過了設備采購費用。而每年200萬的網絡傳輸成本中,卻只有10%是用來傳輸有效數(shù)據(jù)(由于災備技術的不同,相同的應用數(shù)據(jù)可能傳輸高達900%的冗余數(shù)據(jù),自然占用大量的帶寬)。
由于技術和人才有限,許多用戶自己無法管理和維護容災系統(tǒng),只能依賴專業(yè)數(shù)據(jù)服務廠商。一旦出現(xiàn)事故,用戶不僅需要向專業(yè)數(shù)據(jù)服務廠商支付大量的業(yè)務恢復服務費用,還無法控制專業(yè)服務的響應時間,快速恢復業(yè)務根本無從談起。
災備建設的設計者們不僅要掌握真正的成本測算規(guī)則,需要掌控災難恢復的目標和效果,只有這樣,才能避免容災系統(tǒng)的重復投資和投資浪費,真正做到“有災必備”,消除“災難盲區(qū)”,從而有效降低容災建設成本。
做容災必須先整合嗎
隨著業(yè)務的發(fā)展,許多企業(yè)的數(shù)據(jù)中心存在不同時間建設的多個IT子系統(tǒng),異構的系統(tǒng)環(huán)境給數(shù)據(jù)中心用戶帶來了新的困惑:現(xiàn)有的存儲系統(tǒng)是由不同廠商的存儲設備組成的,架構龐大而且十分復雜,容災系統(tǒng)能在這種分散、異構的系統(tǒng)環(huán)境中建設嗎?有人說,做容災必須先進行系統(tǒng)整合,實際情況是不是這樣呢?
市場中的容災技術多種多樣,包括主機復制型容災技術、存儲復制型容災技術、CDP連續(xù)數(shù)據(jù)保護容災技術等。如果用戶采用的是存儲復制型容災技術,那就必須先進行系統(tǒng)整合,因為多個存儲設備是不可能采用一種存儲設備進行容災的。存儲復制型容災技術不是一種開放的容災技術,需要采用專用的單一存儲設備,因此,除了進行整合,用戶沒有更好的辦法。而其余的容災技術都屬于開放的災備技術,系統(tǒng)整合則并不是十分必要。
以CDP災備技術為例,是在主機后端的SAN上或者以太網上(即通過FC或者IP的連接),旁路加入一層數(shù)據(jù)復制器,這個數(shù)據(jù)復制器會含有一定的數(shù)據(jù)空間,它的角色就是通過關聯(lián)技術持續(xù)不斷地獲取生產數(shù)據(jù)(以塊的形式),不僅可以實現(xiàn)本地的數(shù)據(jù)冗余而且可以實現(xiàn)異地數(shù)據(jù)的復制。在異地的災備系統(tǒng)中,同樣部署持續(xù)數(shù)據(jù)復制器,就實現(xiàn)了和本地的連續(xù)數(shù)據(jù)復制器的遠程災備連接,并且將任何本地數(shù)據(jù)恢復的能力傳遞到異地的災備系統(tǒng)。如飛康CDP,它是一種將容災和備份一體化解決的技術,不僅可以實現(xiàn)達到任何IO歷史軌跡的精細化顆粒度的恢復精度,而且能夠在任何故障發(fā)生時,實現(xiàn)瞬間恢復的能力,并且十分關注恢復的有效性和效率。
CDP災備技術由于對于每一個生產子系統(tǒng)都具有開放性的接入技術,而在災備中心則可以匯聚到集中設備上來,因此完全不需要對數(shù)據(jù)中心內的各個子系統(tǒng)進行整合,也可以對于分布式的多分支機構的業(yè)務系統(tǒng)實現(xiàn)多點集中災備。
由此可見,并不是所有的容災項目都需要對系統(tǒng)進行整合,系統(tǒng)整合可能會帶來很高的成本和風險。采用開放的容災技術則是一種比較好的選擇。
