容災(zāi)建設(shè)方案
第一章 容災(zāi)中心建設(shè)方法
容災(zāi)建設(shè)項(xiàng)目和業(yè)務(wù)連續(xù)性項(xiàng)目與用戶的業(yè)務(wù)要求、應(yīng)用現(xiàn)狀密切相關(guān),并涉及眾多技術(shù)和產(chǎn)品以及繁多的供應(yīng)商,因而屬于建設(shè)復(fù)雜、風(fēng)險較高的項(xiàng)目之一。為降低項(xiàng)目風(fēng)險,保證容災(zāi)中心建設(shè)的成功,選擇有經(jīng)驗(yàn)的合作伙伴、并且有成熟實(shí)用的方法論指導(dǎo)對信息中心容災(zāi)建設(shè)非常重要。
EMC為企業(yè)提供“容災(zāi)中心建設(shè)”或業(yè)務(wù)連續(xù)性建設(shè)提出了BCSI(業(yè)務(wù)連續(xù)性解決方案集成)方法論,遵循的方法如下:
如上圖,EMC為企業(yè)進(jìn)行業(yè)務(wù)連續(xù)性或容災(zāi)系統(tǒng)建設(shè)分為三個階段。三個階段是(不包含項(xiàng)目啟動等前期工作):
規(guī)劃(Plan)——科學(xué)的規(guī)劃是項(xiàng)目成功的前提。規(guī)劃階段需要對企業(yè)的IT系統(tǒng)現(xiàn)狀進(jìn)行評估分析,根據(jù)企業(yè)的業(yè)務(wù)發(fā)展的要求明確進(jìn)行需求定義,從而在確定的需求基礎(chǔ)上選擇合適的技術(shù),進(jìn)行技術(shù)架構(gòu)設(shè)計,選擇合適的技術(shù)方案并采購相應(yīng)的產(chǎn)品。
建設(shè)(Build) ——本階段主要是進(jìn)行技術(shù)平臺建設(shè)(包括整合、數(shù)據(jù)遷移等)、測試,建設(shè)完整的“災(zāi)難恢復(fù)計劃(DRP)”或“業(yè)務(wù)連續(xù)性計劃(BCP)”。在科學(xué)、合理的規(guī)劃前提下,建設(shè)階段將相對比較有序。
管理(Manage)——對容災(zāi)建設(shè)項(xiàng)目或業(yè)務(wù)連續(xù)性項(xiàng)目而言,建設(shè)了容災(zāi)技術(shù)平臺及相關(guān)的人員、流程要求僅僅是開始,而不是結(jié)束,必須定期更新、維護(hù)確保能夠滿足不斷變化的業(yè)務(wù)發(fā)展要求。
貫穿“規(guī)劃、建設(shè)、管理”三個階段的是“項(xiàng)目管理和服務(wù)集成能力”。容災(zāi)或業(yè)務(wù)連續(xù)性建設(shè)涉及的技術(shù)和產(chǎn)品非常廣泛,針對不同的業(yè)務(wù)應(yīng)用也可能采用不同的技術(shù)方案,這些方案來自不同的廠商;由于業(yè)務(wù)的相互關(guān)聯(lián),不同的技術(shù)方案之間也存在密切的聯(lián)系,甚至相互依賴。同時,在容災(zāi)建設(shè)過程中,將有多方供應(yīng)商提供服務(wù)支持,能夠協(xié)調(diào)多方關(guān)系,對項(xiàng)目實(shí)施進(jìn)度及質(zhì)量進(jìn)行統(tǒng)一控制,對多方服務(wù)進(jìn)行集成調(diào)度是“項(xiàng)目管理和服務(wù)集成”的重要工作,也是保證項(xiàng)目按時完成并保證質(zhì)量的重要因素。
EMC的BCSI方法論為每個階段定義了所需要完成的工作和步驟(總共十大步驟),對每一步驟都有進(jìn)一步詳細(xì)的定義,后面章節(jié)將針對本設(shè)計項(xiàng)目相關(guān)的地方提供了詳細(xì)步驟圖。針對不同的客戶,EMC將按照以上科學(xué)的方法論,在需要時可按照客戶的實(shí)際情況進(jìn)行“量體裁衣”,設(shè)計合適步驟,為用戶進(jìn)行有計劃、有步驟容災(zāi)系統(tǒng)、業(yè)務(wù)連續(xù)性方案建設(shè)。
第二章 通用容災(zāi)技術(shù)框架
2.1 企業(yè)信息系統(tǒng)保護(hù)層次
現(xiàn)代企業(yè)的數(shù)據(jù)中心IT平臺(包括主機(jī)平臺、網(wǎng)絡(luò)平臺、存儲平臺等)的保護(hù)和恢復(fù)有不同等級的技術(shù)手段,未來企業(yè)的業(yè)務(wù)連續(xù)性建設(shè)將需要不斷提高企業(yè)的信息、數(shù)據(jù)的保護(hù)和恢復(fù)的等級。
不同層次的數(shù)據(jù)中心保護(hù)
如上圖所示,對企業(yè)集中化數(shù)據(jù)中心的IT系統(tǒng)和業(yè)務(wù)數(shù)據(jù)進(jìn)行保護(hù)可以有多種不同層次的保護(hù)方案,主要分為本地保護(hù)和遠(yuǎn)程保護(hù)兩個方面。
企業(yè)數(shù)據(jù)中心面向運(yùn)營的保護(hù)及恢復(fù)包括三個層次:
1. 平臺保護(hù)—主要是平臺的高可用,如采用主機(jī)群集系統(tǒng)和高可用存儲平臺(包括SAN網(wǎng)絡(luò)環(huán)境的高可用和存儲系統(tǒng)的高可用),保證IT平臺沒有單點(diǎn)故障,實(shí)現(xiàn)業(yè)務(wù)和應(yīng)用的高可用性。
2. 數(shù)據(jù)備份—對業(yè)務(wù)數(shù)據(jù)進(jìn)行經(jīng)常性的本地備份,在IT系統(tǒng)出現(xiàn)物理故障或邏輯故障時,數(shù)據(jù)備份都能提供可靠的數(shù)據(jù)保護(hù)。
3. 數(shù)據(jù)恢復(fù)—在出現(xiàn)數(shù)據(jù)錯誤或丟失時能夠進(jìn)行快速、可預(yù)見的數(shù)據(jù)恢復(fù),減少IT系統(tǒng)的中斷時間,降低對業(yè)務(wù)運(yùn)營的影響。
建設(shè)了完善的本地保護(hù)和恢復(fù)后,企業(yè)需要規(guī)劃建設(shè)面向?yàn)?zāi)難保護(hù)及恢復(fù)的“遠(yuǎn)程”數(shù)據(jù)及業(yè)務(wù)保護(hù),它包括三個層次:
1. 遠(yuǎn)程的信息保護(hù)—是將企業(yè)的所有重要數(shù)據(jù)安全的存儲在遠(yuǎn)程站點(diǎn),提供保護(hù),避免災(zāi)難性的事件破壞數(shù)據(jù)。
2. 遠(yuǎn)程自動處理—除了提供對生產(chǎn)數(shù)據(jù)的遠(yuǎn)程保護(hù)外,能夠自動進(jìn)行系統(tǒng)切換、回切及數(shù)據(jù)恢復(fù)等工作,從而在災(zāi)難事件發(fā)生時能夠快速恢復(fù)業(yè)務(wù)運(yùn)行。
3. 多數(shù)據(jù)中心保護(hù)—通過建設(shè)多個數(shù)據(jù)中心,采用多數(shù)據(jù)中心的數(shù)據(jù)保護(hù)、恢復(fù)技術(shù),防范更大范圍的災(zāi)難事件。
2.2 容災(zāi)技術(shù)模型
容災(zāi)技術(shù)平臺建設(shè)是企業(yè)業(yè)務(wù)連續(xù)性建設(shè)的重要基礎(chǔ)。EMC公司將企業(yè)的IT平臺劃分為“接入平臺、應(yīng)用平臺、數(shù)據(jù)平臺”三部分,建議企業(yè)的容災(zāi)技術(shù)平臺建設(shè)應(yīng)該主要著眼于對業(yè)務(wù)處理平臺,數(shù)據(jù)平臺和接入平臺這三個重要的系統(tǒng)領(lǐng)域的保護(hù)。
容災(zāi)技術(shù)模型示意圖
2.2.1 業(yè)務(wù)平臺的保護(hù)——業(yè)務(wù)處理能力的冗余
容災(zāi)技術(shù)方案建設(shè)中,對于企業(yè)的業(yè)務(wù)平臺的保護(hù),主要表現(xiàn)為對業(yè)務(wù)處理能力的冗余和復(fù)用,其中牽涉:
支持應(yīng)用系統(tǒng)運(yùn)行的服務(wù)器和操作系統(tǒng)等系統(tǒng)軟件
支持應(yīng)用系統(tǒng)運(yùn)行的存儲器及存儲器和服務(wù)器的連接(存儲網(wǎng)絡(luò)等)
連接服務(wù)器的IP網(wǎng)絡(luò)系統(tǒng)
支持應(yīng)用系統(tǒng)實(shí)現(xiàn)的中間件或數(shù)據(jù)庫等
客戶將需要在容災(zāi)中心應(yīng)該配置與需要保護(hù)的生產(chǎn)中心相同廠家、相同版本、相同配置的應(yīng)用服務(wù)器、中間件和數(shù)據(jù)庫。要確保主數(shù)據(jù)中心和容災(zāi)中心的軟件運(yùn)行環(huán)境相同。
實(shí)現(xiàn)業(yè)務(wù)邏輯的應(yīng)用軟件系統(tǒng)
EMC咨詢服務(wù)部門將可以為客戶對上述各方面進(jìn)行調(diào)查評估,分析客戶的當(dāng)前生產(chǎn)中心業(yè)務(wù)平臺當(dāng)前的現(xiàn)狀和特定技術(shù)要求,并提出建設(shè)容災(zāi)方案的具體要求。
2.2.2 數(shù)據(jù)平臺的保護(hù)——業(yè)務(wù)狀態(tài)數(shù)據(jù)的復(fù)制
在容災(zāi)系統(tǒng)中,對數(shù)據(jù)平臺的保護(hù)主要表現(xiàn)為對業(yè)務(wù)狀態(tài)數(shù)據(jù)的保護(hù)、備份和恢復(fù)以及復(fù)制,需要保護(hù)的業(yè)務(wù)狀態(tài)數(shù)據(jù)包括:
業(yè)務(wù)交易狀態(tài)(數(shù)據(jù)本身的數(shù)據(jù)屬性為文件、數(shù)據(jù)庫等)
系統(tǒng)狀態(tài)-包括應(yīng)用軟件的初始數(shù)據(jù)、參數(shù)設(shè)置、以及系統(tǒng)軟件的配置數(shù)據(jù)、參數(shù)設(shè)置等。
中間數(shù)據(jù)(或臨時數(shù)據(jù))
在容災(zāi)系統(tǒng)建設(shè)中,數(shù)據(jù)平臺的保護(hù)是實(shí)現(xiàn)企業(yè)災(zāi)難恢復(fù)的核心。保證數(shù)據(jù)的安全永遠(yuǎn)是第一位的,只有支撐企業(yè)業(yè)務(wù)運(yùn)營的數(shù)據(jù)能夠及時、完整地復(fù)制到容災(zāi)中心,才可以在災(zāi)難發(fā)生時,在容災(zāi)中心恢復(fù)受災(zāi)難影響的業(yè)務(wù)應(yīng)用。
對不同企業(yè),EMC將根據(jù)需求分析的結(jié)果,對企業(yè)的不同重要級別的應(yīng)用或業(yè)務(wù)單元采取不同的數(shù)據(jù)復(fù)制方法,對不同類型的應(yīng)用,根據(jù)其訪問特點(diǎn)等也將采取不同的數(shù)據(jù)復(fù)制方法。
2.2.3 接入平臺冗余和切換
接入平臺在容災(zāi)備份系統(tǒng)里,需要實(shí)現(xiàn)對外部接口的冗余及切換,其中牽涉:
應(yīng)用數(shù)據(jù)接口的切換-包括文件傳輸、消息機(jī)制等
應(yīng)用連接接口的切換- HTTP連接、數(shù)據(jù)庫連接、遠(yuǎn)過程調(diào)用、對象的調(diào)用等…
網(wǎng)絡(luò)連接的冗余和切換–包括城域網(wǎng)網(wǎng)絡(luò)連接、撥號連接等等…
企業(yè)的“接入平臺冗余和切換”的關(guān)鍵在于實(shí)現(xiàn)在容災(zāi)中心應(yīng)該配置相同訪問能力的網(wǎng)絡(luò)設(shè)備,并在網(wǎng)絡(luò)配置上確保能快速、方便地將網(wǎng)絡(luò)訪問從主生產(chǎn)中心切換到備份生產(chǎn)中心
2.3 容災(zāi)模式
將根據(jù)項(xiàng)目啟動前期的“現(xiàn)狀評估、業(yè)務(wù)需求分析”等結(jié)果,可以從容災(zāi)層次、容災(zāi)范圍、運(yùn)營方式、容災(zāi)規(guī)模等多角度進(jìn)行綜合分析,得出適用于用戶容災(zāi)要求的容災(zāi)模式和運(yùn)營方式。
2.3.1 容災(zāi)層次
根據(jù)業(yè)務(wù)恢復(fù)時間的長短可以將容災(zāi)建設(shè)劃分為不同的層次:
只做數(shù)據(jù)的災(zāi)難保護(hù),僅能保證數(shù)據(jù)的完整性,此類業(yè)務(wù)在容災(zāi)中心只需要配置存儲平臺,實(shí)現(xiàn)數(shù)據(jù)的遠(yuǎn)程復(fù)制和存儲即可。這種方式可以降低投資,但業(yè)務(wù)恢復(fù)時間很長(一般在3天以上)。數(shù)據(jù)的災(zāi)難保護(hù)是僅將生產(chǎn)中心的數(shù)據(jù)完整地復(fù)制到容災(zāi)中心的容災(zāi)方式。數(shù)據(jù)的災(zāi)難保護(hù)是異地容災(zāi)的最低級形式,也是最基本的方式,是實(shí)現(xiàn)更高級容災(zāi)方式的基礎(chǔ)。
在災(zāi)難發(fā)生時,僅有數(shù)據(jù)的災(zāi)難保護(hù)無法保證業(yè)務(wù)的連續(xù)性,僅可以保證數(shù)據(jù)是可用的,若技術(shù)策略選擇得當(dāng),可以保證業(yè)務(wù)數(shù)據(jù)的完整性。采用這種模式有以下特性:
業(yè)務(wù)恢復(fù)速度較慢,通常情況下RTO>72小時
業(yè)務(wù)恢復(fù)難度大,需要新增設(shè)備
實(shí)現(xiàn)技術(shù)難度比較低
運(yùn)行維護(hù)成本較低
投資比較節(jié)省
除數(shù)據(jù)的災(zāi)難保護(hù)外,實(shí)現(xiàn)應(yīng)用的高可用,確保業(yè)務(wù)可以快速恢復(fù)。容災(zāi)系統(tǒng)的應(yīng)用不改變原有的業(yè)務(wù)處理邏輯,是對生產(chǎn)中心系統(tǒng)的基本復(fù)制。這種方式有以下特性:
業(yè)務(wù)恢復(fù)速度較快,通常情況下RTO小于24小時,也可以達(dá)到幾小時級別
業(yè)務(wù)恢復(fù)過程相對簡單
實(shí)現(xiàn)技術(shù)難度比較高
運(yùn)行維護(hù)成本較高,如:增加軟件版本管理、軟件部署、維護(hù)人員等
投資比較高
2.3.2 容災(zāi)范圍
根據(jù)業(yè)務(wù)影響分析結(jié)果,容災(zāi)備份存儲平臺項(xiàng)目的業(yè)務(wù)將劃分為關(guān)鍵業(yè)務(wù)和非關(guān)鍵業(yè)務(wù)兩大類。未來可以根據(jù)需要選擇要做容災(zāi)保護(hù)的業(yè)務(wù)種類,可以先建設(shè)關(guān)鍵業(yè)務(wù)容災(zāi),未來實(shí)現(xiàn)全業(yè)務(wù)容災(zāi)。
關(guān)鍵業(yè)務(wù)容災(zāi):業(yè)務(wù)需求定義中通過業(yè)務(wù)影響分析定義關(guān)鍵業(yè)務(wù)的容災(zāi)
全業(yè)務(wù)容災(zāi)。
2.3.3 同級容災(zāi)或降級容災(zāi)
根據(jù)容災(zāi)中心配置的處理能力不同,可以分為同級容災(zāi)和降級容災(zāi)。若未來的在容災(zāi)中心為需要進(jìn)行容災(zāi)保護(hù)的業(yè)務(wù)系統(tǒng)都配置與生產(chǎn)中心相同處理能力和高可用能力的業(yè)務(wù)處理平臺(主要是指主機(jī)性能,高可用群集等),則為同級容災(zāi)設(shè)計。如果未來的在容災(zāi)中心為需要進(jìn)行容災(zāi)保護(hù)的業(yè)務(wù)系統(tǒng)配置比生產(chǎn)中心的處理能力低或高可用能力降低(比如沒有做群集等),則為降級容災(zāi)設(shè)計。采用同級或降級容災(zāi)方式取決于業(yè)務(wù)需求和投資預(yù)算,降級容災(zāi)可以減少投資(在主機(jī)方面的投資)。
第三章 不同容災(zāi)技術(shù)介紹
3.1 不同容災(zāi)技術(shù)方案概述
不同企業(yè)的不同業(yè)務(wù)需求和應(yīng)用特點(diǎn)將可能需要有不同的容災(zāi)技術(shù)要求,可以采用多種容災(zāi)技術(shù)來建容災(zāi)系統(tǒng),EMC專業(yè)咨詢服務(wù)部將根據(jù)客戶的實(shí)際需求提供不同的技術(shù)方案。對所有客戶的容災(zāi)技術(shù)平臺建設(shè)而言,容災(zāi)方案的技術(shù)核心是數(shù)據(jù)的保護(hù),實(shí)現(xiàn)遠(yuǎn)程數(shù)據(jù)復(fù)制,并能夠在災(zāi)難發(fā)生時在遠(yuǎn)端利用復(fù)制數(shù)據(jù)提供企業(yè)業(yè)務(wù)運(yùn)營支撐服務(wù),因此數(shù)據(jù)復(fù)制技術(shù)是構(gòu)建容災(zāi)技術(shù)平臺的核心。不同數(shù)據(jù)復(fù)制技術(shù)的分類如下:
如上圖所示,對容災(zāi)項(xiàng)目而言,比較可行的是采用連續(xù)數(shù)據(jù)復(fù)制技術(shù)。
根據(jù)不同容災(zāi)方案所采用數(shù)據(jù)遠(yuǎn)程復(fù)制技術(shù)位于企業(yè)IT架構(gòu)不同層面又可以分為以下三類容災(zāi)方案:
基于存儲層面的容災(zāi)方案—利用存儲系統(tǒng)的遠(yuǎn)程數(shù)據(jù)復(fù)制功能建設(shè)容災(zāi)系統(tǒng),它包括:
同類存儲平臺之間的數(shù)據(jù)復(fù)制;
異構(gòu)存儲平臺之間利用虛擬存儲技術(shù)實(shí)現(xiàn)數(shù)據(jù)復(fù)制。
基于主機(jī)層面的容災(zāi)方案—利用主機(jī)廠家提供的相關(guān)功能軟件或第三方的主機(jī)軟件實(shí)現(xiàn)遠(yuǎn)程的數(shù)據(jù)復(fù)制,建設(shè)容災(zāi)系統(tǒng)。
基于應(yīng)用層的容災(zāi)方案—如利用應(yīng)用軟件如Oracle數(shù)據(jù)庫的本身的遠(yuǎn)程數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)系統(tǒng)
本節(jié)將針對以上“基于存儲層面數(shù)據(jù)復(fù)制的容災(zāi)方案” 、“基于主機(jī)層面的容災(zāi)方案” 和“基于應(yīng)用層容災(zāi)方案(以O(shè)racle Data Guard為例)”等三類不同方式容災(zāi)方案進(jìn)行分析。
對不同的用戶,EMC將根據(jù)客戶的容災(zāi)技術(shù)方案的實(shí)際需要以及技術(shù)條件進(jìn)行評估,為用戶最合適的容災(zāi)技術(shù)方案。
3.2 基于存儲的數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)系統(tǒng)
采用基于存儲的容災(zāi)方案的技術(shù)核心是利用存儲陣列自身的盤陣對盤陣的數(shù)據(jù)塊復(fù)制技術(shù)實(shí)現(xiàn)對生產(chǎn)數(shù)據(jù)的遠(yuǎn)程拷貝,從而實(shí)現(xiàn)生產(chǎn)數(shù)據(jù)的災(zāi)難保護(hù)。在主數(shù)據(jù)中心發(fā)生災(zāi)難時,可以利用災(zāi)備中心的數(shù)據(jù)在災(zāi)備中心建立運(yùn)營支撐環(huán)境,為業(yè)務(wù)繼續(xù)運(yùn)營提供IT支持。同時,也可以利用災(zāi)備中心的數(shù)據(jù)恢復(fù)主數(shù)據(jù)中心的業(yè)務(wù)系統(tǒng),從而能夠讓企業(yè)的業(yè)務(wù)運(yùn)營快速回復(fù)到災(zāi)難發(fā)生前的正常運(yùn)營狀態(tài)。
基于存儲的容災(zāi)方案示意圖如下:
基于存儲數(shù)據(jù)復(fù)制技術(shù)的容災(zāi)方案示意圖
采用基于存儲的數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)系統(tǒng)是目前金融、電信企業(yè)、政府采用較多的容災(zāi)方案,有非常多的應(yīng)用案例,是容災(zāi)建設(shè)可選擇的技術(shù)方案之一。
基于存儲的復(fù)制可以是如上示意圖的“一對一”復(fù)制方式,也可以是“一對多或多對一”的復(fù)制方式,即一個存儲的數(shù)據(jù)復(fù)制到多個遠(yuǎn)程存儲或多個存儲的數(shù)據(jù)復(fù)制到同一遠(yuǎn)程存儲;而且復(fù)制可以是雙向的。
基于存儲的容災(zāi)方案有兩種方式:同步方式和異步方式,說明如下:
同步方式,可以做到主/備中心磁盤陣列同步地進(jìn)行數(shù)據(jù)更新,應(yīng)用系統(tǒng)的I/O寫入主磁盤陣列后(寫入Cache中),主磁盤陣列將利用自身的機(jī)制(如EMC的SRDF/S)同時將寫I/O寫入后備磁盤陣列,后備磁盤陣列確認(rèn)后,主中心磁盤陣列才返回應(yīng)用的寫操作完成信息。
異步方式,是在應(yīng)用系統(tǒng)的I/O寫入主磁盤陣列后(寫入Cache中),主磁盤陣列立即返回給主機(jī)應(yīng)用系統(tǒng)“寫完成”信息,主機(jī)應(yīng)用可以繼續(xù)進(jìn)行讀、寫I/O操作。同時,主中心磁盤陣列將利用自身的機(jī)制(如EMC的SRDF/A)將寫I/O寫入后備磁盤陣列,實(shí)現(xiàn)數(shù)據(jù)保護(hù)。
采用同步方式,使得后備磁盤陣列中的數(shù)據(jù)總是與生產(chǎn)系統(tǒng)數(shù)據(jù)同步,因此當(dāng)生產(chǎn)數(shù)據(jù)中心發(fā)生災(zāi)難事件時,不會造成數(shù)據(jù)丟失。為避免對生產(chǎn)系統(tǒng)性能的影響,同步方式通常在近距離范圍內(nèi)(FC連接通常是200KM范圍內(nèi),實(shí)際用戶部署多在35KM左右)。
而采用異步方式應(yīng)用程序不必等待遠(yuǎn)程更新的完成,因此遠(yuǎn)程數(shù)據(jù)備份的性能的影響通常較小,并且備份磁盤的距離和生產(chǎn)磁盤間的距離理論上沒有限制(可以通過IP連接來實(shí)現(xiàn)數(shù)據(jù)的異步復(fù)制)。
采用基于存儲數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)方案的必要前提是:
通常必須采用同一廠家的存儲平臺,通常也必須是同一系列的存儲產(chǎn)品,給用戶的存儲平臺選擇帶來一定的限制。
采用同步方式可能對生產(chǎn)系統(tǒng)性能產(chǎn)生影響,而且對通信鏈路要求較高,有距離限制,通常在近距離范圍內(nèi)實(shí)現(xiàn)(同城容災(zāi)或園區(qū)容災(zāi)方案)
采用異步方式與其他種類的異步容災(zāi)方案一樣,存在數(shù)據(jù)丟失的風(fēng)險,通常在遠(yuǎn)距離通信鏈路帶寬有限的情況下實(shí)施。
盡管有以上限制,基于存儲的容災(zāi)技術(shù)方案仍然是當(dāng)前最優(yōu)先選擇的容災(zāi)技術(shù)平臺,尤其是基于EMC公司的存儲系統(tǒng)建設(shè)容災(zāi)方案有非常廣泛的應(yīng)用,這主要是由于基于存儲的容災(zāi)技術(shù)方案有如下優(yōu)點(diǎn):
采用基于存儲的數(shù)據(jù)復(fù)制獨(dú)立于主機(jī)平臺和應(yīng)用,對各種應(yīng)用都適用,而且完全不消耗主機(jī)的處理資源;
基于存儲得數(shù)據(jù)復(fù)制技術(shù),由于在最底層,實(shí)施起來受應(yīng)用、主機(jī)環(huán)境等相關(guān)技術(shù)的影響最小,非常適合于這樣主機(jī)和業(yè)務(wù)系統(tǒng)很多、很復(fù)雜的環(huán)境,采用此種方式可以有效降低實(shí)施和管理難度;
采用同步方式可以完全不丟失數(shù)據(jù),在同城容災(zāi)或園區(qū)內(nèi)容災(zāi)方案中,只要通信鏈路帶寬許可,完全可以采用同步方案,而不會對主數(shù)據(jù)中心的生產(chǎn)系統(tǒng)性能產(chǎn)生顯著影響。采用EMC基于存儲的同步復(fù)制方式的容災(zāi)案例有很多,有非常多的成功經(jīng)驗(yàn),如江蘇移動、中國光大銀行、遼寧移動、黑龍江移動都采用了EMC同步復(fù)制技術(shù),并能滿足大規(guī)模I/O吞吐情況下的同步數(shù)據(jù)復(fù)制要求。而目前同城容災(zāi)環(huán)境中已經(jīng)具備上述條件,可以很方便部署同步方式復(fù)制;
采用異步方式雖然存在一定的數(shù)據(jù)丟失的風(fēng)險,但沒有距離限制,可以實(shí)現(xiàn)遠(yuǎn)距離保護(hù)。異地數(shù)據(jù)中心,則采用與北京兩個中心的異步復(fù)制方式進(jìn)行數(shù)據(jù)保護(hù)。
災(zāi)備中心的數(shù)據(jù)可以得到有效利用。
對于基于應(yīng)用、基于主機(jī)、基于存儲的三種容災(zāi)方案而言,災(zāi)備中心的數(shù)據(jù)通常不可用,僅為生產(chǎn)系統(tǒng)中的數(shù)據(jù)提供災(zāi)難保護(hù)和災(zāi)難恢復(fù)。但對采用基于存儲技術(shù)的容災(zāi)方案中,有很靈活的技術(shù)手段可以充分利用災(zāi)備中心的數(shù)據(jù),從而提高企業(yè)的業(yè)務(wù)運(yùn)營效率,帶來更多的投資回報。如下圖所示:
基于存儲的容災(zāi)方案有效利用災(zāi)備數(shù)據(jù)
如上圖所示,生產(chǎn)中心的“源數(shù)據(jù)—R1”通過存儲本身的數(shù)據(jù)復(fù)制機(jī)制被復(fù)制到了災(zāi)備中心,即“目標(biāo)數(shù)據(jù)R2”。 “目標(biāo)數(shù)據(jù)R2”在正常生產(chǎn)情況下是不可訪問的,災(zāi)備中心的后備主機(jī)只能在災(zāi)難發(fā)生時,主中心服務(wù)停止后,才可以訪問“目標(biāo)數(shù)據(jù)”,接管主中心的服務(wù)(基于主機(jī)和應(yīng)用的容災(zāi)方案的災(zāi)備中心數(shù)據(jù)與此類似)。但采用基于存儲的容災(zāi)方案時,我們可以為“目標(biāo)數(shù)據(jù)”建立一個BCV卷或快照、克隆,從而可以給到另外的服務(wù)器使用。
利用這種機(jī)制,用戶可以在容災(zāi)中心做很多工作:
用戶開發(fā)測試人員可以利用R2-BCV或R2快照得到真實(shí)的數(shù)據(jù)進(jìn)行新應(yīng)用開發(fā)、測試工作,從而保證新應(yīng)用的質(zhì)量,加快新產(chǎn)品上市時間。這種方式在采用基于主機(jī)方案和基于應(yīng)用方案都很難實(shí)現(xiàn),或在獲得一份真實(shí)數(shù)據(jù)進(jìn)行開發(fā)測試時需要很長的時間,消耗大量的資源。
用戶的其它應(yīng)用也可以利用R2-BCV或R2快照滿足其它業(yè)務(wù)的需要。如數(shù)據(jù)倉庫應(yīng)用通常需要從生產(chǎn)系統(tǒng)抽取數(shù)據(jù),一旦進(jìn)行大規(guī)模數(shù)據(jù)抽取,生產(chǎn)系統(tǒng)幾乎處于停頓狀態(tài),這時可以利用R2-BCV卷進(jìn)行數(shù)據(jù)抽取,從而避免數(shù)據(jù)抽取給生產(chǎn)系統(tǒng)帶來的巨大性能沖擊。企業(yè)的決策分析系統(tǒng)的數(shù)據(jù)來源也都可以基于R2-BCV來實(shí)現(xiàn)。
由于以上優(yōu)點(diǎn),基于存儲災(zāi)難保護(hù)方案是目前采用最多的災(zāi)難保護(hù)方案。
3.3 采用虛擬化存儲技術(shù)建設(shè)容災(zāi)系統(tǒng)
存儲虛擬化的技術(shù)方法,是將系統(tǒng)中各種異構(gòu)的存儲設(shè)備映射為一個單一的存儲資源,對用戶完全透明,達(dá)到屏蔽存儲設(shè)備的異構(gòu)和主機(jī)的異構(gòu)的目的。通過虛擬化技術(shù),用戶可以利用已有的硬件資源,把SAN內(nèi)部的各種異構(gòu)的存儲資源統(tǒng)一成對用戶來說是單一視圖的存儲資源(Storage Pool),而且采用Striping、LUN Masking、Zoning等技術(shù),用戶可以根據(jù)自己的需求對這個大的存儲池進(jìn)行方便的分割、分配,保護(hù)了用戶的已有投資,減少了總體擁有成本(TCO)。另外也可以根據(jù)業(yè)務(wù)的需要,實(shí)現(xiàn)存儲池對服務(wù)器的動態(tài)而透明的增長與縮減。
通過存儲虛擬化技術(shù)可實(shí)現(xiàn)數(shù)據(jù)的遠(yuǎn)程復(fù)制,以確保容災(zāi)中心與主站點(diǎn)的數(shù)據(jù)保持同步以實(shí)現(xiàn)數(shù)據(jù)容災(zāi)。
存儲虛擬化技術(shù)可以在不同層面實(shí)現(xiàn),如在智能交換機(jī)層面、存儲層面或增加第三方設(shè)備來實(shí)現(xiàn)。采用虛擬存儲技術(shù)進(jìn)行數(shù)據(jù)復(fù)制同樣也可以有同步復(fù)制方案和異步復(fù)制方案,需要根據(jù)具體的需求選擇合適的產(chǎn)品。
采用虛擬存儲化技術(shù)建設(shè)容災(zāi)方案有以下優(yōu)點(diǎn):
主生產(chǎn)中心和容災(zāi)中心的存儲陣列可以是不同廠家的產(chǎn)品,存儲平臺選擇不受現(xiàn)有存儲平臺廠商的廠商限制(但目前市場上產(chǎn)品還沒有做到這一點(diǎn));
對不同廠家的存儲陣列提供統(tǒng)一的管理界面;
在虛擬存儲環(huán)境下,無論后端物理存儲是什么設(shè)備,服務(wù)器及其應(yīng)用系統(tǒng)看到的都是其熟悉的存儲設(shè)備的邏輯鏡像。即便物理存儲發(fā)生變化,這種邏輯鏡像也永遠(yuǎn)不變,系統(tǒng)管理員不必再關(guān)心后端存儲,只需專注于管理存儲空間,所有的存儲管理操作,如系統(tǒng)升級、建立和分配虛擬磁盤、改變RAID級別、擴(kuò)充存儲空間等比從前的任何產(chǎn)品都容易,存儲管理變得輕松簡單。
采用虛擬存儲化技術(shù)建設(shè)容災(zāi)方案需要考慮以下問題:
虛擬存儲技術(shù)比較新,雖然為異構(gòu)環(huán)境設(shè)計,但在異構(gòu)環(huán)境種保證兼容性和數(shù)據(jù)的完整性依然存在很大風(fēng)險;
采用虛擬存儲技術(shù),尤其是增加第三方硬件的方式將需要評估對整個系統(tǒng)的高可用性和性能的影響;
需要驗(yàn)證選擇的產(chǎn)品和技術(shù)的成熟性以及和現(xiàn)有設(shè)備、未來設(shè)備的兼容性能力,尤其是難以滿足復(fù)雜環(huán)境、大規(guī)模容災(zāi)要求的實(shí)際適用情況;
虛擬存儲技術(shù)目前尚不夠成熟,還處于發(fā)展階段,而且對于異構(gòu)存儲環(huán)境部署基于虛擬存儲技術(shù)的容災(zāi)方案,目前還無任何案例和應(yīng)用;
3.4 采用基于主機(jī)的數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)系統(tǒng)
采用基于主機(jī)的容災(zāi)方案的示意圖如下:
基于主機(jī)的容災(zāi)方案示意圖
采用基于主機(jī)系統(tǒng)的容災(zāi)方式的核心是利用主、備中心主機(jī)系統(tǒng)通過IP網(wǎng)絡(luò)建立數(shù)據(jù)傳輸通道,通過主機(jī)數(shù)據(jù)管理軟件實(shí)現(xiàn)數(shù)據(jù)的遠(yuǎn)程復(fù)制,當(dāng)主數(shù)據(jù)中心的數(shù)據(jù)遭到破壞時,可以隨時從備份中心恢復(fù)應(yīng)用或從備份中心恢復(fù)數(shù)據(jù),從而給企業(yè)提供了應(yīng)用系統(tǒng)容災(zāi)的能力。
實(shí)現(xiàn)遠(yuǎn)程數(shù)據(jù)復(fù)制的數(shù)據(jù)管理軟件有很多產(chǎn)品,主機(jī)廠商和一些第三方軟件公司(如Veritas)提供基于主機(jī)的數(shù)據(jù)復(fù)制方案,如Sun公司的Availability Suite軟件和Veritas Volume Replicator(VVR)等軟件可實(shí)現(xiàn)基于主機(jī)的遠(yuǎn)程數(shù)據(jù)復(fù)制,從而構(gòu)建基于主機(jī)的容災(zāi)系統(tǒng)。
采用基于主機(jī)的數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)方案有以下優(yōu)點(diǎn):
基于主機(jī)的方案最主要的優(yōu)點(diǎn)是只對服務(wù)器平臺和主機(jī)軟件有要求,完全不依賴于底層存儲平臺,生產(chǎn)數(shù)據(jù)中心和后備數(shù)據(jù)中心可以采用不同的存儲平臺;
既有針對數(shù)據(jù)庫的容災(zāi)保護(hù)方案,也有針對文件系統(tǒng)的容災(zāi)保護(hù)方案;
有很多不同的基于主機(jī)的方案,可以滿足用戶的不同數(shù)據(jù)保護(hù)要求,提供多種不同數(shù)據(jù)保護(hù)模式;
基于IP網(wǎng)絡(luò),沒有距離限制;
同時,采用主機(jī)的數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)方案有以下局限:
基于主機(jī)的方案需要同種主機(jī)平臺;
基于主機(jī)的數(shù)據(jù)復(fù)制方案由于生產(chǎn)主機(jī)既要處理生產(chǎn)請求,又要處理遠(yuǎn)程數(shù)據(jù)復(fù)制,必須消耗生產(chǎn)主機(jī)的計算資源,對于主機(jī)的內(nèi)存、CPU進(jìn)行升級是非常昂貴的,因而對生產(chǎn)主機(jī)性能產(chǎn)生較大的影響,甚至是產(chǎn)生嚴(yán)重影響;
災(zāi)備中心的數(shù)據(jù)一般不可用,如果用戶需要在遠(yuǎn)程數(shù)據(jù)中心使用生產(chǎn)數(shù)據(jù)給開發(fā)測試、DW/BI應(yīng)用使用將非常困難;
利用主機(jī)數(shù)據(jù)復(fù)制軟件的方案比較復(fù)雜,尤其是和數(shù)據(jù)庫應(yīng)用結(jié)合的時候需要很復(fù)雜的機(jī)制或多種軟件的結(jié)合,從而對生產(chǎn)系統(tǒng)的穩(wěn)定性、可靠性、性能帶來顯著影響;
如果有多個系統(tǒng)、多種應(yīng)用需要災(zāi)難保護(hù),采用基于主機(jī)的方案將無法有統(tǒng)一的技術(shù)方案來實(shí)現(xiàn)。
管理復(fù)雜,需要大量的人工干預(yù)過程,容易發(fā)生錯誤。
目前,企業(yè)采用基于主機(jī)的數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)方案相對比較少,通常適合單一應(yīng)用或系統(tǒng)在I/O規(guī)模不大的情況下局部使用。在應(yīng)用I/O負(fù)載比較大,需要災(zāi)難保護(hù)的應(yīng)用及應(yīng)用類型比較多、主機(jī)環(huán)境復(fù)雜的時候,基于主機(jī)系統(tǒng)的方案并不適用。
3.5 基于應(yīng)用的數(shù)據(jù)復(fù)制建設(shè)容災(zāi)系統(tǒng)
基于應(yīng)用之間的數(shù)據(jù)復(fù)制技術(shù)也有很多種,以下按常用的Oracle 9i/10G用自帶的Oracle Data Guard技術(shù)來進(jìn)行分析(Microsoft SQL*Server的Mirror技術(shù)采用類似方式)。
Oracle Data Guard技術(shù)是Oracle數(shù)據(jù)庫系統(tǒng)特有的災(zāi)難備份和恢復(fù)技術(shù),利用了Oracle數(shù)據(jù)庫系統(tǒng)的日志備份和恢復(fù)機(jī)制。Data Guard的基本原理是在與主系統(tǒng)完全一致的硬件和操作系統(tǒng)平臺上建立后備數(shù)據(jù)庫系統(tǒng),同時對主數(shù)據(jù)庫的數(shù)據(jù)庫日志(Log)和控制文件等關(guān)鍵文件進(jìn)行備份。
在主系統(tǒng)正常工作的同時將主系統(tǒng)產(chǎn)生歸檔日志文件(Archived Log)不斷的傳送到后備數(shù)據(jù)庫系統(tǒng),并且利用這些日志文件在后備數(shù)據(jù)庫系統(tǒng)上連續(xù)進(jìn)行恢復(fù)(Recover)操作,以保持后備系統(tǒng)與運(yùn)行系統(tǒng)的一致。當(dāng)主系統(tǒng)發(fā)生故障時,使用備份的數(shù)據(jù)庫日志文件在后備數(shù)據(jù)庫上恢復(fù)主數(shù)據(jù)庫內(nèi)的數(shù)據(jù)。
圖5.18. 采用Oracle Data Guard的容災(zāi)方案
Oracle9i/10G Data Guard提供了三種模式:
最大保護(hù)模式
最大可用模式
最大性能模式
Oracle Data Guard最大保護(hù)模式提供了對于主數(shù)據(jù)庫最高級別的數(shù)據(jù)可用度,是一種保證零數(shù)據(jù)丟失的容災(zāi)解決方案。當(dāng)運(yùn)行最大保護(hù)模式時,Redo紀(jì)錄以同步的方式從主數(shù)據(jù)庫發(fā)送到后備數(shù)據(jù)庫,而且,在主數(shù)據(jù)庫方的事務(wù),一定要等到至少有一個后備數(shù)據(jù)庫確認(rèn)接收到事務(wù)數(shù)據(jù),該事務(wù)才被提交。在這種模式下,一般配置至少兩個后備數(shù)據(jù)庫,以提供雙重容錯保護(hù)。如果后備數(shù)據(jù)庫不可用,則主數(shù)據(jù)庫方會自動掛起處理進(jìn)程。
最大可用性模式提供了對于主數(shù)據(jù)庫次高級別的數(shù)據(jù)可用度,保證零數(shù)據(jù)丟失,并對單個組件的失敗提供保護(hù)。與最大保護(hù)模式一樣,redo數(shù)據(jù)被同步地從主數(shù)據(jù)庫發(fā)送到后備數(shù)據(jù)庫。在主數(shù)據(jù)庫方的事務(wù),一定要等到后備數(shù)據(jù)庫確認(rèn)接收事務(wù)數(shù)據(jù),該事務(wù)才被提交。然而,如果后備數(shù)據(jù)庫因?yàn)橹T如網(wǎng)絡(luò)連接之類的問題而不可用時,主數(shù)據(jù)庫方的處理會繼續(xù)執(zhí)行。這樣,會出現(xiàn)后備數(shù)據(jù)庫暫時與主數(shù)據(jù)庫不一致的情況,但是一旦后備數(shù)據(jù)庫恢復(fù)可用,數(shù)據(jù)庫會自動同步,不會有數(shù)據(jù)丟失。
最大性能模式是缺省的保護(hù)模式。與最大可用性模式相比,它對于主數(shù)據(jù)庫提供稍弱一點(diǎn)的保護(hù),但是性能更高。在這種模式下,當(dāng)主數(shù)據(jù)庫對事務(wù)進(jìn)行處理時,日志數(shù)據(jù)被以異步的方式傳送到后備數(shù)據(jù)庫。在主數(shù)據(jù)庫方,提交操作在完成寫的動作前、無需等待后備數(shù)據(jù)庫的接收確認(rèn)。在任何時候,如果后備方不可用,主數(shù)據(jù)庫方的處理繼續(xù)執(zhí)行,這樣對性能不會有什么影響。
采用Oracle 9i/10G Data Guard技術(shù)進(jìn)行災(zāi)難備份需要滿足以下前提條件:
后備系統(tǒng)與主系統(tǒng)的硬件平臺、操作系統(tǒng)、操作系統(tǒng)版本等保持一致;
后備系統(tǒng)與主系統(tǒng)上Oracle用戶的權(quán)限一致;
后備系統(tǒng)與主系統(tǒng)的Oracle數(shù)據(jù)庫版本一致;
后備系統(tǒng)與主系統(tǒng)的Oracle數(shù)據(jù)庫配置文件一致。
采用Oracle Data Guard建設(shè)容災(zāi)方案有以下優(yōu)點(diǎn):
完全通過Oracle數(shù)據(jù)庫機(jī)制來實(shí)現(xiàn),完全不依賴于其它軟件和底層存儲平臺;
可以滿足用戶的不同性能、數(shù)據(jù)保護(hù)要求,提供多種不同數(shù)據(jù)保護(hù)模式;
可以實(shí)現(xiàn)一對多的數(shù)據(jù)復(fù)制,提供多重保護(hù);
后備數(shù)據(jù)庫可以在很短的時間內(nèi)提升到生產(chǎn)狀態(tài)(因?yàn)閿?shù)據(jù)庫已經(jīng)在運(yùn)行);
基于IP網(wǎng)絡(luò),沒有距離限制;
同時,采用Oracle Data Guard建設(shè)容災(zāi)方案有以下限制:
Oracle Data Guard的三種模式都將對生產(chǎn)數(shù)據(jù)庫系統(tǒng)的性能產(chǎn)生影響,因而需要更多的處理資源;
后備數(shù)據(jù)庫不可用,如果用戶需要在遠(yuǎn)程數(shù)據(jù)中心使用生產(chǎn)數(shù)據(jù)給開發(fā)測試、DW/BI應(yīng)用使用將非常困難;
只能對Oracle數(shù)據(jù)庫數(shù)據(jù)提供保護(hù),不能對其它應(yīng)用數(shù)據(jù)—如文件應(yīng)用等提供災(zāi)難保護(hù);
管理復(fù)雜,需要大量的人工干預(yù)過程,并且要精通數(shù)據(jù)庫恢復(fù)技術(shù),容易發(fā)生錯誤;
難以實(shí)現(xiàn)大數(shù)據(jù)量源數(shù)據(jù)庫和目標(biāo)數(shù)據(jù)庫初次同步,沒有相應(yīng)解決方案;
業(yè)界其它基于應(yīng)用的的容災(zāi)方案的優(yōu)點(diǎn)和局限性與Oracle Data Guard模式基本相同,如Golden Gate和Quest Shareplex軟件,下面也介紹一下:
其實(shí)現(xiàn)原理和Oracle DataGuard類似,針對數(shù)據(jù)庫的日志進(jìn)行數(shù)據(jù)的增量復(fù)制,通過Queue技術(shù)來保證傳輸?shù)目煽啃浴F浞桨竷?yōu)勢是:
同Oracle DataGuard相同的缺點(diǎn)(見上面部分)
更加靈活,此方案不依賴于主機(jī)系統(tǒng)平臺,在主生產(chǎn)主機(jī)和備用節(jié)點(diǎn)主機(jī)不同的情況更具有優(yōu)勢;
缺點(diǎn)是:
同Oracle DataGuard相同的缺點(diǎn)(見上面部分)
只能是異步模式(基于日志和Queue技術(shù)),不適合于同城容災(zāi)和高要求的容災(zāi)要求,如的零數(shù)據(jù)丟失要求;
Oracle對此技術(shù)方案不宣布技術(shù)支持和問題處理,因此提高了此容災(zāi)方案的風(fēng)險;
3.6 容災(zāi)方案涉及內(nèi)容
根據(jù)的現(xiàn)狀評估、需求分析和技術(shù)選型的結(jié)果,容災(zāi)技術(shù)方案設(shè)計將需要包含以下內(nèi)容:
容災(zāi)總體架構(gòu)設(shè)計
存儲級容災(zāi)數(shù)據(jù)復(fù)制方案設(shè)計
應(yīng)用級別(或其它方式)的數(shù)據(jù)復(fù)制方案設(shè)計
SAN網(wǎng)絡(luò)規(guī)劃設(shè)計
IP網(wǎng)絡(luò)規(guī)劃設(shè)計
主機(jī)及應(yīng)用部署方案
系統(tǒng)調(diào)優(yōu)(根據(jù)需要選擇)
數(shù)據(jù)遷移方案
存儲部署規(guī)劃
備份系統(tǒng)設(shè)計(根據(jù)需要)
機(jī)房設(shè)計或機(jī)房環(huán)境要求。
等等
3.7 小結(jié)
基于應(yīng)用的容災(zāi)方案、基于主機(jī)的容災(zāi)方案和基于存儲(包括虛擬存儲技術(shù))的容災(zāi)方案都有各自的適用范圍,適用于不同的災(zāi)難保護(hù)需要。用戶需要根據(jù)具體的實(shí)際需求來選擇合適的容災(zāi)保護(hù)方案。
不同的用戶不同的業(yè)務(wù)系統(tǒng)、不同應(yīng)用對容災(zāi)的要求不同,要求不同的容災(zāi)服務(wù)等級。EMC在未來將按照科學(xué)流程和方法,并利用EMC公司在信息存儲管理領(lǐng)域的專業(yè)技能和經(jīng)驗(yàn)為用戶進(jìn)行IT環(huán)境的評估和業(yè)務(wù)影響分析,發(fā)掘客戶業(yè)務(wù)需求對容災(zāi)技術(shù)的要求,從而建議最合適的容災(zāi)方案。
對企業(yè)而言,選擇容災(zāi)方案既要考慮選擇合適技術(shù)方案,也需要考查實(shí)現(xiàn)該方案的產(chǎn)品在技術(shù)上是否成熟、可靠,性能和靈活性是否滿足要求,同時也需要考查提供該解決方案的供應(yīng)商是否有豐富的經(jīng)驗(yàn)和認(rèn)證的技能來保證方案的確實(shí)可行并能夠成功實(shí)施。
EMC公司在容災(zāi)領(lǐng)域有領(lǐng)先的技術(shù)并已經(jīng)得到了廣大用戶的實(shí)際應(yīng)用檢驗(yàn),方案的可行性、產(chǎn)品的成熟度、穩(wěn)定性、可靠性、靈活性都的到了大量實(shí)際應(yīng)用的考驗(yàn)。EMC的技術(shù)服務(wù)隊(duì)伍已經(jīng)在眾多容災(zāi)項(xiàng)目成功實(shí)施過程中表現(xiàn)出強(qiáng)大的技術(shù)力量,能夠確保用戶容災(zāi)方案的成功實(shí)施。
第四章 容災(zāi)通信鏈路設(shè)計
容災(zāi)通信鏈路設(shè)計是容災(zāi)系統(tǒng)建設(shè)非常重要的部分,也是容災(zāi)方案設(shè)計的難點(diǎn)、要點(diǎn)之一,所以單列本章節(jié)進(jìn)行闡述。
4.1 通信鏈路設(shè)計概述
下面是針對鏈路設(shè)計的相關(guān)技術(shù)介紹,供參考:
基于主機(jī)或基于應(yīng)用的容災(zāi)技術(shù)來建設(shè)容災(zāi)系統(tǒng),則將采用標(biāo)準(zhǔn)的IP網(wǎng)絡(luò)連接,通信鏈路可以是ATM、E1/E3、IP等;如果采用基于存儲或虛擬存儲的技術(shù)來建設(shè)容災(zāi)方案,則可以采用Fibre Channel、ESCON、DWDM、SONET等通信鏈路,也可以通過FCIP設(shè)備利用ATM、E1/E3、IP等通信鏈路。
不同的通信鏈路有不同的要求,如距離限制、帶寬能力等;而不同的容災(zāi)技術(shù)、不同的容災(zāi)應(yīng)用對通信鏈路的要求不同;采用同步方式或采用異步方式進(jìn)行數(shù)據(jù)復(fù)制對通信鏈路的要求也大不相同。
對于一個容災(zāi)方案,無論采用哪種復(fù)制技術(shù),都需要解決以下問題.
在我當(dāng)前選擇的容災(zāi)中心距離的情況下:
我需要哪種鏈路? 需要多少條?成本如何?
這么遠(yuǎn)的距離對應(yīng)用影響是什么? 如采用同步方式,響應(yīng)時間是否太長?I/O數(shù)量能否滿足?
如采用異步方式,我的RPO是多少?需要配多大的Cache量?
設(shè)計的鏈路是否一定滿足預(yù)期的目標(biāo)?
根據(jù)用戶的不同要求進(jìn)行科學(xué)的通信鏈路設(shè)計是保障用戶在合理的通信成本下成功實(shí)現(xiàn)容災(zāi)系統(tǒng)建設(shè)的重要步驟之一。
4.2 容災(zāi)通信鏈路的比較
當(dāng)前業(yè)界容災(zāi)方案的通訊鏈路基本采用有“裸光纖直連交換機(jī)方式、通過DWDM設(shè)備連接裸光纖方式、IP網(wǎng)絡(luò)方式”等,每種方式各有利弊,以下對不同通信鏈路方式進(jìn)行比較。
通過裸光纖直連交換機(jī),采用FC協(xié)議
采用FC協(xié)議的通信鏈路只適用于基于存儲復(fù)制或虛擬存儲復(fù)制的容災(zāi)方案。在這類方案中,生產(chǎn)中心與備份中心的光纖交換機(jī)通過裸光纖直連,如下圖所示:
裸光纖直連交換機(jī)的通信鏈路模式
兩個中心存儲系統(tǒng)的容災(zāi)端口通過光纖交換機(jī)和裸光纖進(jìn)行連接,可以保證同步或異步數(shù)據(jù)復(fù)制的性能。為保證高可用,通常采用冗余連接鏈路設(shè)計。容災(zāi)鏈路裸光纖可以和生產(chǎn)主機(jī)共享SAN交換機(jī),也可以獨(dú)立SAN交換機(jī)(也需要冗余)或SAN Router。通常為避免容災(zāi)鏈路通信和主機(jī)訪問存儲的相互干擾,采用獨(dú)立的SAN來連接容災(zāi)通信鏈路的方式采用較多。
不同容災(zāi)方案需要的通信鏈路數(shù)量是不同的,具體需要鏈路的條數(shù)(即帶寬要求)需要具體分析、計算獲得。
通過CWDM/DWDM設(shè)備直連裸光纖
采用密集波分復(fù)用技術(shù),可以加載多協(xié)議,例如FC協(xié)議、IP協(xié)議,如下圖所示:
采用CWDM/DWDM設(shè)備的通信鏈路模式
如上圖所示, 通過CWDM/DWDM技術(shù),主數(shù)據(jù)中心和容災(zāi)數(shù)據(jù)中心的IP網(wǎng)絡(luò)連接、FC連接都可以復(fù)用到共享裸光纖,比較好的解決了裸光纖的利用率和多協(xié)議復(fù)用的問題。為避免單點(diǎn)故障,同樣可以采用冗余連接、沒有單點(diǎn)故障的解決方案。同時,采用CWDM/DWDM方式有更多的拓?fù)浞桨?,需要在具體設(shè)計時進(jìn)行分析后確定。
利用IP網(wǎng)絡(luò),采用ATM或E1、E3線路
采用基于主機(jī)和基于應(yīng)用的容災(zāi)方案可以直接利用IP網(wǎng)絡(luò),在此不再多加說明。采用“基于存儲或基于虛擬存儲”的容災(zāi)技術(shù)將需要進(jìn)行FC協(xié)議到IP協(xié)議的轉(zhuǎn)換,從而將FC加載在IP網(wǎng)絡(luò)中傳輸。此方案采用國際流行的IP網(wǎng)絡(luò)協(xié)議和鏈路,通過FC/IP轉(zhuǎn)換設(shè)備(例如Nishan),將FC通道協(xié)議打包在IP數(shù)據(jù)包內(nèi),通過IP鏈路傳輸,理論上沒有距離的限制,適用于遠(yuǎn)程異步數(shù)據(jù)復(fù)制,是性價比很好的選擇。連接示意圖如下:
采用FC到IP設(shè)備的通信鏈路模式
各種種通信鏈路所提供的帶寬(只供參考)
線路類型 | 理論帶寬 | 實(shí)際帶寬 | 復(fù)制1TB所需時間 |
T1 | 1.544 | 1.08 | 85天 |
T3 | 45 | 31.31 | 71小時 |
100bT | 100 | 70.00 | 31.7小時 |
OC3 | 155 | 108.50 | 20.4小時 |
OC12 | 622 | 435.40 | 5.1小時 |
千兆以太網(wǎng) | 1000 | 800 | 2.9小時 |
OC48 | 2488 | 1741.60 | 1.2小時 |
OC192 | 9953 | 6967.10 | 19分鐘 |
T1 - 1.544 megabits per second
T3 - 43.232 megabits per second (28 T1s)
OC3 - 155 megabits per second (84 T1s)
OC12 - 622 megabits per second (4 OC3s)
OC48 - 2.5 gigabits per seconds (4 OC12s)
OC192 - 9.6 gigabits per second (4 OC48s)
4.3 容災(zāi)通信鏈路帶寬估算
存儲系統(tǒng)的性能配置要求和通信鏈路帶寬要求需要根據(jù)用戶的數(shù)據(jù)中心的實(shí)際情況進(jìn)行分析計算決定。準(zhǔn)確地估算用戶的容災(zāi)通信鏈路的帶寬要求需要對各中心需要容災(zāi)保護(hù)的應(yīng)用的I/O負(fù)載進(jìn)行數(shù)據(jù)收集,采集各應(yīng)用I/O特征、負(fù)載大小,尤其是寫I/O的數(shù)據(jù),利用所收集的寫I/O數(shù)據(jù)并結(jié)合所采用的容災(zāi)數(shù)據(jù)復(fù)制技術(shù)以及數(shù)據(jù)復(fù)制模式(同步、異步)、應(yīng)用恢復(fù)的RTO/RPO要求來計算容災(zāi)通信鏈路的帶寬要求。
EMC公司提供標(biāo)準(zhǔn)的方法和工具為客戶進(jìn)行容災(zāi)數(shù)據(jù)復(fù)制通信鏈路的設(shè)計,通常按以下步驟來估算容災(zāi)方案的通信鏈路帶寬需求:
當(dāng)前生產(chǎn)中心I/O性能數(shù)據(jù)收集
主要收集需要進(jìn)行容災(zāi)保護(hù)的應(yīng)用、主機(jī)存儲的I/O性能數(shù)據(jù)。數(shù)據(jù)的收集從兩方面獲得:
從主機(jī)上獲得I/O性能數(shù)據(jù)(如在UNIX平臺上可利用IOSTAT,SAR可得到I/O性能數(shù)據(jù);在Windows服務(wù)器上可利用Perfmon工具獲得Windows服務(wù)器的I/O性能數(shù)據(jù));
從存儲平臺上獲得I/O性能數(shù)據(jù),通過存儲平臺的性能采集工具可以獲得訪問存儲的每個LUN上的I/O分布情況,包括I/O特征(EMC提供完整的工具收集存儲平臺的I/O性能信息)。
利用EMC設(shè)計軟件過濾I/O性能數(shù)據(jù),得到I/O寫的數(shù)據(jù)
容災(zāi)通信鏈路的設(shè)計與I/O寫的性能要求相關(guān),只有寫I/O才復(fù)制到遠(yuǎn)程容災(zāi)中心,因此寫I/O的特征及負(fù)荷決定了鏈路的要求。此過程將過濾無關(guān)數(shù)據(jù)(如非關(guān)鍵應(yīng)用的I/O—不需要容災(zāi)),得到每秒寫I/O次數(shù),不同應(yīng)用類型的平均I/O塊大小,是否有調(diào)優(yōu)的需要等。下圖是通過EMC工具獲得的寫I/O性能數(shù)據(jù)參考樣本。
I/O寫性能數(shù)據(jù)參考樣本(EMC工具收集)
根據(jù)采集的I/O寫性能數(shù)據(jù)估算客戶應(yīng)用的總體峰值帶寬和平均帶寬
根據(jù)容災(zāi)鏈路類型,連接方案估算容災(zāi)通信的“延時”
要考慮不同通信協(xié)議的額外開銷以及物理鏈路帶來的“延時”。
估計未來性能增長要求和需要預(yù)留的峰值空間
通信鏈路的設(shè)計(包括所有能力規(guī)劃)都需要考慮未來業(yè)務(wù)的增長,并預(yù)留增長空間。
確定同步復(fù)制模式還是異步復(fù)制模式,如選擇異步復(fù)制模式,則需要確定RPO要求(最多允許丟失多少數(shù)據(jù))--根據(jù)RPO要求和業(yè)務(wù)的I/O量可以設(shè)計鏈路需求;也可以根據(jù)現(xiàn)有鏈路情況,結(jié)合業(yè)務(wù)的I/O量分析可以實(shí)現(xiàn)的RPO能力以及在源數(shù)據(jù)端需要為異步復(fù)制額外增加的Cache開銷。
利用EMC的專門工具進(jìn)行設(shè)計
根據(jù)不同復(fù)制模式,將收集的I/O性能等參數(shù)輸入到EMC工具中,同時考慮鏈路容余的要求,將可以為客戶計算出所需要的帶寬要求。
EMC公司未來將采用以上方法為用戶進(jìn)行容災(zāi)鏈路設(shè)計,該方法已經(jīng)在很多EMC為重要提供的容災(zāi)方案中得到應(yīng)用并獲得成功。利用EMC科學(xué)的鏈路設(shè)計方法及獨(dú)到的設(shè)計工具,EMC將能夠?yàn)?/span>用戶提出合理的鏈路規(guī)劃方案,為成功實(shí)施容災(zāi)方案奠定基礎(chǔ)。
4.4 EMC容災(zāi)數(shù)據(jù)復(fù)制方案設(shè)計工具簡介
EMC公司根據(jù)已經(jīng)為廣大高端用戶提供容災(zāi)建設(shè)的經(jīng)驗(yàn),開發(fā)設(shè)計了專門的工具—ET Tools,用來做容災(zāi)數(shù)據(jù)復(fù)制方案的設(shè)計。該工具利用用戶當(dāng)前的業(yè)務(wù)I/O情況和用戶的服務(wù)水平要求可以分析設(shè)計復(fù)制方案中的關(guān)鍵要求:通信鏈路帶寬和復(fù)制平臺(如主機(jī)或存儲)的處理能力。也可以用來評估用戶在受限的通信條件下所能達(dá)到的RPO要求。該工具在未來用作用戶容災(zāi)技術(shù)平臺服務(wù)水平的評估工具,可以定期進(jìn)行I/O性能統(tǒng)計、分析性評估容災(zāi)數(shù)據(jù)復(fù)制平臺是否滿足不斷變化了的業(yè)務(wù)發(fā)展要求。