數(shù)據(jù)容災和 應用容災_第1頁
已閱讀1頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1,數(shù)據(jù)容災和 應用容災,——讓數(shù)據(jù)永遠可用的方法與技術第五講,2,一、概念和需求,,3,1、數(shù)據(jù)容災和應用容災,容災分為數(shù)據(jù)容災和應用容災。數(shù)據(jù)容災:可以保證數(shù)據(jù)不丟失,但不能保證服務不中斷;應用容災:可以保證服務不中斷。它在異地建立一套與本地數(shù)據(jù)系統(tǒng)相當?shù)娜哂嘞到y(tǒng),當災難出現(xiàn)后,遠程系統(tǒng)可以迅速承接本地應用系統(tǒng)的業(yè)務。,4,2、系統(tǒng)實現(xiàn),容災的系統(tǒng)實現(xiàn):數(shù)據(jù)容災依靠備份技術實現(xiàn);應用容災則

2、必須依靠遠程鏡像技術和 集群技術。 容災,不僅是技術課題,更是觀念上的革新。,5,3、容災是在教訓中發(fā)展的,教訓使容災得以廣泛發(fā)展: 1993年,世貿中心大樓發(fā)生爆炸。爆炸前,約有350家企業(yè)在該樓中工作。一年后,有200家企業(yè)由于無法恢復重要的信息系統(tǒng)而倒閉、消失?;氐绞蕾Q大樓的公司變成了150家,。,6,容災是在教訓中發(fā)展的,1995年1月,日本神戶地區(qū)大地震,摧毀了1700余部

3、電腦系統(tǒng),造成1千多億美元的損失。 1999年6月,美國一家著名的商業(yè)交易網(wǎng)站的主機宕機,由于24小時內未能恢復訪問,兩個星期后,該公司的股票市值下跌了36%。,7,容災是在教訓中發(fā)展的,研究顯示,在災害之后,如果無法在14天內恢復信息作業(yè),有75%的公司業(yè)務會完全停頓,43%的公司再也無法重新開業(yè),有20%的企業(yè)在兩年之內將不得不宣告破產。 造成損失的不止是這些恐怖性的災害,是集上真正大量的“災害”是源于應用。對容災來說,“亡羊

4、補牢,猶未為晚”的觀點顯然已經過時,“防患于未然”才是我們必須做到的。企業(yè)亡羊后,不是都有補牢的機會 。,8,二、數(shù)據(jù)備份方法概述,,9,數(shù)據(jù)備份的基本概念與方法,數(shù)據(jù)容災的目的是保證數(shù)據(jù)的安全可靠,其實現(xiàn)途徑就是備份。備份就是將數(shù)據(jù)復制到失效模式獨立于工作磁盤的存儲介質上,從而有效防止磁盤崩潰帶來的毀滅性打擊。,10,現(xiàn)有復本技術,mirrored disks 鏡像磁盤技術independent failure model

5、 (獨立的失效模式)為保證多個數(shù)據(jù)庫復本不會因同一故障而一起失效,各復本支持環(huán)境應獨立,如不共用磁盤,電源,磁盤控制器,cpu等。初期多在分布式數(shù)據(jù)庫中使用。最近出現(xiàn)了鏡像磁盤技術。,11,Mirrored disks system:,12,1.離線備份與在線備份,離線備份要求備份期間服務器停止應用程序、中斷對外服務,這是備份的原始形式。企業(yè)對計算機的依賴日益增長,例如信用卡之類的事務處理需要24小時不間斷運轉,備份的時間只

6、能見縫插針。離線備份對于長時間提供連續(xù)服務的應用來說是不可取的。,13,2.在線備份——快照技術,快照技術將時間引入數(shù)據(jù)存儲,用戶在使用當前數(shù)據(jù)的同時,也可以看到以前某個時間點的數(shù)據(jù)。通過快照技術能很方便地實現(xiàn)在線備份。與數(shù)據(jù)庫的影子存儲概念類似。 快照過程分為創(chuàng)建期和存在期:,14,,在快照創(chuàng)建前,要凍結原邏輯分區(qū)的所有讀寫操作。即系統(tǒng)控制涉及該區(qū)的所有事務,未開始的不準開始,正執(zhí)行的事務均執(zhí)行至自然結束。保證分區(qū)中數(shù)據(jù)的一致

7、性,使快照得到凍結時刻系統(tǒng)的即時備份??煺談?chuàng)建后,用戶即可使用快照數(shù)據(jù):當有寫命令對某一數(shù)據(jù)塊進行操作時,快照程序就將原數(shù)據(jù)塊的內容復制到快照數(shù)據(jù)區(qū)域,然后再將新的數(shù)據(jù)寫入原物理位置。,15,,可以看出,快照所提供的在線備份實際上是將離線備份所需要的時間劃分成很小的時間間隔,然后均勻分布到每一次寫操作中。快照保留的是“前像”,類似數(shù)據(jù)庫中的工作日記內容。 保留: 塊地址、 修改時間、“前像” 等信息,用于回滾。前恢復。,16,

8、2.完全備份與增量備份,完全備份需要對所有文件進行備份,無論這些文件自上一次備份后是否被修改過。增量備份只備份在上一次備份后被修改過的文件。,17,,增量備份是比較合理的備份方式:在兩次備份間被修改過的文件相對于整個備份文件集合來說只是少數(shù)。一個大的數(shù)據(jù)系統(tǒng),備份周期若是一天或者更短時,通常只有少于1%的文件被修改。此時,增量備份只復制完全備份1%的數(shù)據(jù),占用1%的存儲資源。,18,,增量備份分為差別備份和累積備份:差別備份

9、是從上次備份后修改過的文件的拷貝;累積備份是指自上一個完全備份后被修改的全部文件拷貝。累積備份是在差別備份基礎上生成的:用完整備份后生成的所有差別備份產生一個累積備份。,19,,產生一個累積備份:按時間倒序拷貝所有差別備份中的未拷貝入累積備份的文件的最后一個差量備份的版本。產生一個累積備份后所有用以生成該累積備份的所有差別備份文件一般均予以刪除。完全備份、累積備份和差別備份可以通過互相組合,平衡備份對應用的影響以及整個文件系統(tǒng)和

10、數(shù)據(jù)庫的恢復時間。,20,,例:一周的備份工作可以這樣設計:周日生成完全備份;周一、周二和周三生成差別備份;周四生成累積備份;周五和周六生成差別備份。當需要恢復一周的數(shù)據(jù)時:首先恢復上周日的完全備份,再恢復周四的累積備份,最后恢復周五和周六的備份。在這個過程中,恢復數(shù)據(jù)至多需要四次恢復。,21,3.LAN-Free備份與Serverless備份,,22,,目前,企業(yè)IT系統(tǒng)大部分是客戶機/服務器結構,與該結構對應的是分

11、布式備份管理。在這種結構中,備份服務器的數(shù)據(jù)通過企業(yè)LAN傳輸,這有違企業(yè)LAN用于應用程序通信的初衷。這種方式也會造成備份數(shù)據(jù)路徑冗長,一般需跨網(wǎng)遠程傳送。存儲區(qū)域網(wǎng)絡(SAN)的引入有效地緩解了這些問題。,23,,LAN-Free備份把大部分數(shù)據(jù)從LAN中分離出來并通過SAN傳輸,于是備份不會影響其他用戶的日常工作。然而LAN-Free備份并沒有縮短數(shù)據(jù)從磁盤到磁帶的傳輸路徑: 備份數(shù)據(jù)從磁盤經由SAN轉移到備份服

12、務器的存儲器,再一次經由SAN轉移到磁帶驅動器緩沖區(qū),最后寫入磁帶。,24,,SAN,如果磁盤和磁帶都連接到SAN,那么就有可能不經過服務器緩沖區(qū)直接在它們之間傳輸數(shù)據(jù),這通常稱為無服務器(Serverless)備份。服務器可以命令讀取指定范圍的數(shù)據(jù)塊并直接送到指定的磁帶驅動器,如此一來,數(shù)據(jù)就直接從磁盤流向磁帶緩沖區(qū),從而減少了50%的數(shù)據(jù)傳輸量,節(jié)省了時間和I/O資源。,25,二、兩種應用容災途徑,應用容災的目標是保證服務不間斷。

13、 最常用的兩種方法是: 數(shù)據(jù)鏡像和 集群技術。,26,(一)、數(shù)據(jù)鏡像1、概念,數(shù)據(jù)鏡像就是保留兩個或兩個以上在線數(shù)據(jù)的拷貝。,27,,以兩個鏡像磁盤為例,所有寫操作在兩個獨立的磁盤上同時進行;當兩個磁盤都正常工作時,數(shù)據(jù)可以從任一磁盤讀??;如果一個磁盤失效,則數(shù)據(jù)可以從另外的一個正常工作的磁盤讀出。這些數(shù)據(jù)中心如同孿生兄弟共生共長。,28,2、同步鏡像和異步鏡像,遠程鏡像根據(jù)采用的寫協(xié)議不同可

14、劃分為兩種方式: 同步鏡像和異步鏡像。同步鏡像是指“寫”操作會同時在原始磁盤和鏡像磁盤上完成,且原始磁盤的“寫”操作完成后需要等待鏡像磁盤完成“寫”操作信號,才能提交;,29,,異步鏡像雖然同時將“寫”命令和數(shù)據(jù)發(fā)送原始磁盤和鏡像磁盤,但原始磁盤的“寫”操作完成后并不需要等待鏡像磁盤完成“寫”操作。后者的“寫”操作可以通過數(shù)據(jù)復制進程異步完成。即由數(shù)據(jù)復制進程保證鏡像磁盤的 “寫”操作完成。,30,3、鏡像的實現(xiàn),一般來

15、說,鏡像是在硬件架構的基礎上由軟件實現(xiàn)的,通常可在系統(tǒng)的三個位置上實現(xiàn): 卷管理器 磁盤控制器 主機總線適配器,31,卷管理器,作為服務器的軟件組件,它是在文件系統(tǒng)和主機總線適配器驅動程序之間構架的單獨一層,其主要目的是把服務器掛載的物理磁盤驅動器虛擬化,以更方便的形式提供給文件系統(tǒng)使用。卷管理器將卷修改命令和參數(shù)發(fā)鏡像盤主機。,32,磁盤控制器,磁盤控制器除了完成數(shù)據(jù)塊的移動、拷貝、計算等特殊功能外,還帶有功能強大的通用處理器

16、,磁盤控制器是一些較大型服務器實現(xiàn)數(shù)據(jù)鏡像和RAID最為常用的位置。直接將塊修改指令和參數(shù)發(fā)鏡像主機或RAID 。,33,主機總線適配器,一些供應商開發(fā)了一種既可以提供傳統(tǒng)主機總線適配器的格式轉換功能,又能實現(xiàn)多I/O總線接口以及RAID和數(shù)據(jù)鏡像算法的主機總線適配器。這種主機總線適配器具有很高的性價比,已經普遍應用在小型部門服務器上。但由于這種主機總線適配器難以實現(xiàn)多主機的數(shù)據(jù)存取,所以它們在企業(yè)服務器上的用途有限。,34,(二

17、)、集群技術,企業(yè)對數(shù)據(jù)處理的高可用性和可擴展性要求促進了集群技術的發(fā)展。因為集群能夠達到容錯和擴展的目的。大型集群一般可以在以下三個層次上保護數(shù)據(jù)和應用:,35,,(1)、進入系統(tǒng)的客戶請求是由一組協(xié)作的路由器接收,它們使用負載平衡技術為多個應用程序服務器分發(fā)請求的。(數(shù)據(jù)庫服務器集群) 這些路由器的主要功能是把到來的請求按負載均衡策略,合理地分發(fā)出去。這種技術能夠承受路由器的失效:一旦有路由器失效,其他路由器可以重新分發(fā)請求、

18、均衡負載。,36,,(2)網(wǎng)絡路由器在應用程序服務器集群間分發(fā)客戶請求,這些服務器訪問一組公共數(shù)據(jù)。(SAN)如果一個應用程序服務器失效,它就停止響應網(wǎng)絡路由器的請求,網(wǎng)絡路由器則在剩下的應用程序服務器中重新分發(fā)工作負載。為均衡負載服務器間遷移某些應用進程,由于數(shù)據(jù)共享也容易實現(xiàn)。(對數(shù)據(jù)庫服務器集群講,應用進程遷移,就是重傳SQL命令了,但要遷移元數(shù)據(jù)),37,,(3)、共享數(shù)據(jù)的訪問是由服務器層次中的第三層,即一個數(shù)據(jù)庫或文件服

19、務器的集群提供。不同的文件服務器和數(shù)據(jù)庫管理器使用不同的機制(可由分布式數(shù)據(jù)庫管理系統(tǒng)實現(xiàn))互相合作,其效果是使運行在這個層次的服務器上的數(shù)據(jù)管理實例能夠互相合作,從而形成一個可處理數(shù)據(jù)訪問請求的集群,以保證數(shù)據(jù)的一致性,38,,在復雜的集群系統(tǒng)中,能容錯、可擴展的RAID子系統(tǒng)通常是必要的。諸如磁盤和路徑失效的承受能力、鏡像的寫回高速緩存以及控制器失效轉移這些存儲子系統(tǒng)的典型特點證明了“存儲集群”這個名字是恰當?shù)摹?39,,當集群存儲

20、使用SAN連接時,集群是最為靈活也最容易管理的,這是因為SAN在所有存儲設備和服務器之間提供了完全直接的連接。通過連接集群中所有服務器和所有存儲設備,SAN提高了靈活性,使并行服務集群可以擴展到更多的應用程序,也使應用程序失效轉移能夠在服務器間連續(xù)進行(如數(shù)據(jù)庫服務器集群),從而具有更高的可用性。,40,,END,41,災難恢復 從“應用”開始,第六講,42,1、導論,過去,人們常常把數(shù)據(jù)丟失歸結為硬件的損壞,如硬件失效,災難;

21、但現(xiàn)在看,更多的災難源于“人”,或說更多的災難源于應用。因此,企業(yè)的災難恢復的策略也應該從“物理導向”轉為“應用導向”。即把主要注意力集中于如何防止應用層面引發(fā)的數(shù)據(jù)失效。,43,,在中國,企業(yè)已經逐步認識到保證系統(tǒng)可用性對于業(yè)務的重要性,而在信息系統(tǒng)中,最為寶貴的莫過于企業(yè)關鍵數(shù)據(jù)。數(shù)據(jù)處理的高可靠性成為至關重要的問題。如需要進行大量數(shù)據(jù)處理的金融業(yè)等。,44,,數(shù)據(jù)丟失或長時間停機除了直接導致明顯的財務流失之外,更為重要的是企

22、業(yè)將失去客戶的信任以及一系列賴以生存和發(fā)展的市場。以銀行業(yè)為例,中國加入WTO和外資銀行進入中國市場,都對中國銀行業(yè)提出了更高的服務要求。建立快速高效的災難恢復解決方案,保障業(yè)務系統(tǒng)的連續(xù)運行成為企業(yè)贏得市場競爭的必要條件。,45,2、真實的“災難”,大型企業(yè)都面臨著一個現(xiàn)實的問題:業(yè)務數(shù)據(jù)量劇增,同時迫于提高服務可用性要求,企業(yè)允許的停機時間越來越短,對數(shù)據(jù)恢復速度的要求,也必然隨之提高。實際經驗證明:雖然沒有一件計算機設備是百

23、分之百的可靠,但在實際中遇到的絕大多數(shù)修復都是邏輯修復,是與應用有關的修復,并不是與硬件設備相關的。,46,,BMC公司戰(zhàn)略專家說過一句話:“接到的每一個求助電話的開頭總是驚人地相似:“Peter,你絕不會相信這里發(fā)生了什么!” 。最近幾年來我所處理過的幾乎所有“災難”都是由“人”的原因引起的,而非硬件設備故障造成的。正是這些被我們忽視的“難以置信”的原因使我們的數(shù)據(jù)庫系統(tǒng)陷于癱瘓”。,47,3、企業(yè)的災難恢復的策略應該從“物理導向”轉

24、為“應用導向”,過去,人們總是擔心硬件設備的損壞,因而致力于研究和發(fā)展硬件恢復技術?,F(xiàn)在情況是:企業(yè)信息系統(tǒng)的形態(tài)已經發(fā)生了很大的變化,各種軟件系統(tǒng)日益復雜,引起故障的主要因素已不再限于硬件系統(tǒng)。,48,,Gartner Group的分析表明,在造成故障的原因中 :操作員誤操作約占40%;應用程序錯誤占40%;系統(tǒng)和環(huán)境錯誤占20%。 從總體上看:真正由“災難”引發(fā)的故障只占全部故障原因的5%,而真正迫使人們運行恢復程

25、序的故障通常是“人”造成的。 但遺憾的是許多客戶還沒能清晰地認識到這一點,他們仍然沿用舊有的方式保證數(shù)據(jù)安全。,49,,過去強調“物理導向”的備份主要關注對硬件系統(tǒng)的備份、對相關設備的備份及保留一定的冗余。今日的數(shù)據(jù)安全維護者們不僅必須能夠修復本地物理故障和災難事故,還必須能夠應對日常的所有“應用”故障。在這種情況下,只對文件和數(shù)據(jù)庫進行備份是遠遠不夠的,即使是對磁盤都進行鏡像也于事無補,因為那對應用邏輯錯誤,只是兩份沒有

26、任何用處的拷貝。,50,,例如,在2002年4月,eBay曾經經歷了12個小時的停機,造成故障的原因是錯誤的數(shù)據(jù)在整個存儲環(huán)境中不斷地復制,此時,鏡像只是助長了錯誤的繁殖。大部分幫助實施的“災難”恢復,甚至不用前往遠程站點就能解決問題。因為它們都是軟件或操作錯誤引發(fā)的。,51,4、建立“應用導向”的災難恢復戰(zhàn)略,許多客戶已經認識到,企業(yè)需要改變他們處理問題的方式,并仔細分析在復雜的數(shù)據(jù)系統(tǒng)中哪些是真正可能出現(xiàn)問題的部分。為了全面確

27、保數(shù)據(jù)安全,現(xiàn)在的大型企業(yè)必須建立一種全新的強調“應用導向”的災難恢復戰(zhàn)略,以取代過去強調“物理導向”的觀念。,52,,這種新戰(zhàn)略將災難恢復的重心由轉儲、備份和修復文件及數(shù)據(jù)庫,轉移到針對整個數(shù)據(jù)系統(tǒng)規(guī)劃、管理和故障診斷。為了把數(shù)據(jù)損失降到最低限度,就必須對所有與數(shù)據(jù)庫有關的數(shù)據(jù)、日志和應用程序進行鏡像。,53,,許多企業(yè)重視防范毀滅性災難,在預防災難性事故方面花費大量投資,但這種毀滅性災難發(fā)生的幾率很小。與此相反,他們往往忽視對

28、應用和邏輯性故障的防范,雖然防范這類故障并不需要大量的資金投入,但是它們的發(fā)生率卻很高,可以說這類故障是肯定會發(fā)生的。企業(yè)應該將他們的注意力更多地轉向曾經被忽視的應用和邏輯性防范。,54,5、縮短數(shù)據(jù)恢復準備時間十分重要,一般情況下:80%的實際停機時間都用于調查、分析和診斷;僅有20%的時間是真正執(zhí)行數(shù)據(jù)恢復的時間。因此,縮短數(shù)據(jù)恢復的準備時間對縮短災難恢復時間十分重要。,55,6、數(shù)據(jù)恢復管理的工具,應用導向的備份強調對整個

29、應用系統(tǒng)的備份,強調保持數(shù)據(jù)的完整性,同時必須保證企業(yè)關鍵任務的恢復在最短時間內完成。在這種情況下,對數(shù)據(jù)的完善管理成為必要。實現(xiàn)這一目標需要軟件工具的幫助。如BMC軟件公司推出的管理工具,56,,Recovery Manager for DB2為IBM DB2 Universal Database數(shù)據(jù)平臺提供智能化的恢復管理程序,包括:應用程序重啟(Application Restart)、高速拷貝(High Speed Cop

30、y)、高速恢復(High Speed Recovery)、恢復管理(Recovery Management) 四個功能模塊。,57,,支持對指定時間點的恢復、恢復選定的數(shù)據(jù)文件、數(shù)據(jù)庫甚至是單個對象,而無需將數(shù)據(jù)庫脫機。針對最常見的人為錯誤,如意外刪除數(shù)據(jù)或意外撤銷邏輯對象,通過“邏輯提取”功能從物理備份中提取這些邏輯對象,實現(xiàn)對象級別以及存儲過程級別的恢復。,58,7、“有備無患”是災難恢復的關鍵,建立一套完備有效的災難恢

31、復規(guī)劃是企業(yè)成功實現(xiàn)容災恢復的關鍵環(huán)節(jié)。容災恢復的所謂“有備無患”也正是在這里。災難恢復規(guī)劃正是容災恢復的備。,59,“有備無患”是災難恢復的關鍵,制訂任何一個災難恢復規(guī)劃都必須從最簡單的幾個問題入手:1)、企業(yè)能夠承受的數(shù)據(jù)損失量是多少?2)、對數(shù)據(jù)恢復時間的要求是多少?3)、對恢復過程影響生產系統(tǒng)性能的要求怎樣?4)、企業(yè)愿意為災難恢復花費多少錢? 事實上,災難恢復永遠是費用、復雜程度、數(shù)據(jù)損失、最長停機時

32、間之間的權衡過程。,60,,一些企業(yè)選擇在遠程站點轉儲所有數(shù)據(jù),這種方法雖然簡單、便宜,但卻意味著災難發(fā)生時大量的數(shù)據(jù)流失,因為這種轉儲周期不能太短,多以星期為周期。 執(zhí)行轉儲數(shù)據(jù)需要一段時間的停機。一些企業(yè)不允許重要數(shù)據(jù)的丟失和轉儲停機。,61,,技術支持也可以實現(xiàn)捕捉數(shù)據(jù)庫的日志資料并將其傳輸?shù)竭h程站點。甚至可以在遠程站點運行這些日志資料,業(yè)務數(shù)據(jù)基本都包含在其中。這種模式在災難發(fā)生時可以確保最小的數(shù)據(jù)損失,即那些正在傳輸途中

33、的數(shù)據(jù),并實現(xiàn)最短時間內的恢復。這種解決方案的復雜程度和所需費用都是十分驚人的。,62,,所以目前最為實用的是一種折衷的模式,將所有應用程序、數(shù)據(jù)庫系統(tǒng)項目,以及數(shù)據(jù)庫運行日志拷貝備份到遠程站點,這些備份以天或小時為周期,能夠最大限度地減少數(shù)據(jù)損失。,63,,制訂了適合企業(yè)業(yè)務需求的災難恢復規(guī)劃之后,對規(guī)劃進行測試是至關重要的環(huán)節(jié)?!澳品▌t”(Murphy’s Law)在災難恢復領域同樣適用:一切可能出現(xiàn)的問題最終都將出現(xiàn)。只有不斷地

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論