一个实际使用的容灾方案(EMC的DMX2000和Symmix 8830)
前段时期组织实施了公司的远程应用级容灾系统,就此写了篇文章,发表在计费杂志上,从中摘录出主要的部分,希望能够为计划实施容灾建设的朋友提供一些参考意见。
此次容灾使用的存储是:EMC的DMX2000和Symmix 8830,系统平台为HPunix11.11;
一、远程容灾方式简介
1、灾难的分类和数据保护方式
对每一个现代企业来说,数据越来越重要,而如何保证数据的安全成为企业用户关注的焦点。引起计算机系统毁灭的因素很多,可以是小系统中的硬件故障,还可以是因火灾、飓风、地震而引起的数据处理设备的损坏,只要造成了关键业务的中断,都是灾难。
根据发生的原因,灾难主要分为两种类型:自然灾难和人为灾难。自然灾难包括飓风、龙卷风、地震、洪水和火灾等等。人为灾难是指人们在平时可能意识不到的灾难,它潜伏在人们的日常工作过程中,是对IT架构及其相关组件操作、运行过程中积累下来的灾难,它包括计算机/网络犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作错误等。
数据的丢失就是由于上面所说的种种灾难的发生而产生的,现在主要的几种数据保护方式和各种方式的效果如下表:
保护方式
灾难分类
计算机软硬件故障
人为操作故障
计划性停机
生产地点灾难
无备份
损失全部数据不可恢复
损失部分数据并且不可恢复
业务长时间停机
损失全部数据损失巨大
本地冷备份(每天)
业务停止数小时,可能损失一天数据
业务停止数小时,可能损失部分数据
业务停止数小时,不会损失数据
业务长时间停止,可能损失全部数
本地热备份(集群模式)
业务可在分钟级恢复,几乎不丢失交易
业务停止数小时,可能损失部分数据
业务不停止
业务长时间停止,可能损失全部数据
远程热备份
(集群模式)
业务可在分钟级恢复,几乎不丢失交易
业务可在分钟级恢复,几乎不丢失交易
业务不停止
业务在小时级恢复
可以看出选择的数据备份方式不同,所产生的效果也会有很大的差异,必须根据实际情况,选择合适的、更高保障的数据备份方式,才能有效的保护重要数据。
2、远程容灾简介
首先,容灾的主要目的是要保证企业业务连续性。而所谓业务连续性,除了需要保证业务运作所依赖的数据不丢失之外,更为重要的事情,是要实现业务系统应用的连续性,所以,对于容灾来说,不仅仅是简单意义的数据镜像就能够实现的。或许,我们可以说数据镜像是实现容灾的一种方式,但是,绝不可以认为,容灾就是数据镜像。在实现容灾的手段中,有几种方式,包括一般的数据备份、数据库备份、中间件备份和基于磁盘阵列的备份,对于这几种方式的投资不一样,其最终所实现备份的程度也不一样。此外,容灾的建立是要靠一整套流程的支持,要保证系统遭遇到人为或者自然灾害时,可以马上能应用起来。这是对实时性要求很高的系统,所以,采用简单的离线备份方式,是远远不够的。
远程容灾是指为了防止因火灾、地震、人为破坏或设备故障造成系统瘫痪、数据丢失、业务中断,而在数据中心之外的另一地点建立容灾中心,容灾中心具有与主中心相同或相似的主机、网络和存储设备。系统正常运行时,应用会将数据同时写向主数据中心和容灾中心的存储设备,并保证二者的实时一致性。当主数据中心发生灾难时,应用能够快速地自动切换到备份系统,从而保证数据的完整性和业务连续性。当主中心系统恢复后,主中心的存储设备会向容灾中心存储设备进行数据重新同步,然后应用切换回主中心。
3、远程容灾的方式
异地容灾可采取多种方案:
a. 最原始也是最简单的方法是每日定期作数据备份,并将介质储运至异地,以保证有一份完整的数据备份。
b. 采取两台存储系统作镜像,其中一台存储系统放置在远距离的建筑物内,以保证在发生火灾等不测事件时能迅速恢复数据。
c. 采取异地(可以是不同的建筑物也可以是不同的城市或国家)备份的方式。即在异地设置一个服务器(也可没有)及一个存储系统,配置数据库软件,同步、或异步地进行数据库数据的备份,以保证在发生火灾等不测事件时,异地备份系统能立即接替服务。
d. 采取异地(可以是不同的建筑物也可以是不同的城市或国家)备份的方式。即在异地设置一个服务器及一个存储系统,配置相关软件软件,进行系统资源的备份,以保证在发生火灾等不测事件时,异地备份系统能立即接替服务。
4、建立远程容灾系统的必要性
当自然灾害或人为制造的灾难来临时,身处险地的计算机系统也面临着空前的考验。一旦计算机系统中存储的数据被毁,人们失去的将不仅仅是记忆。美国“9.11”事件的发生日。这次灾难使得相当数量的企业在瞬间遭到了灭顶之灾。但是在撞机事件中总部遭到了毁灭性打击的摩根斯坦利银行,由于在数英里外的新泽西州的蒂内克保留着数据备份,在第二天就恢复营业。之后容灾的问题在IT界的各大研讨会上被屡次提及,摩根斯坦利的经验也被人称道。美国劳工局做过统计:在曾遭受过重大数据丢失现象的公司中,93%的公司在五年内破产。而“在曾经历过大型灾难或长时间系统停运的公司中,有2/5的公司再也未恢复运行;而在其余的公司中,有1/3的公司在两年内破产。
随着******业务的发展对计算机系统的依赖性越来越高,保持业务的持续性是企业用户进行数据存储时必须考虑的重要方面。灾难的出现,数据的丢失,可能导致生产停顿、客户满意度降低,企业的竞争力会因此大打折扣。从上面******的主业务系统的现状分析来看,很有必要实现主业务系统数据的容灾建设。一个真正意义上的高可靠性存储系统必须能够解决各种导致计算机系统失效的意外情况,保护业务应用在7X24小时内不间歇运行。
远程容灾系统的核心就在于在不同的地方将灾难化解,在实践中主要表现为两个方面:
一是保证企业数据的安全;
二是保证业务的连续性。
由于工作站点和灾难恢复站点运行同样的系统,包括操作系统、基础数据库和应用软件,并通过数据复制管理器完成在线和实时的本地复制,或者通过光纤通道的远程数据复制。假如工作站点发生灾难,不能再继续工作,这时容灾中心会将业务数据及时恢复到备用服务器上,并自动将业务切换到备用服务器,然后实现业务的远程切换,恢复系统不间断的运行。
二、远程容灾系统建设目标
1、实施远程容灾前的业务系统状况
******在实施远程容灾之前已完成所有业务数据的省级集中,并根据业务属性不同整合成两大核心,一部分以营帐数据为核心,简称营帐系统;另一部分以经营分析数据为核心,简称分析系统。
营帐系统主要由4台HP RP84系列服务器、1台EMC DMX2000磁盘阵列、2台Broadcade ED64M光纤交换机、1台昆腾P7000磁带库构成。其中4台HP服务器组成本地的MC/SG高可用性集群,可保证在某1台主机出现系统或硬件故障时,到其他机器的自动切换,保证了系统运行的连续。EMC DMX2000存储,在数据盘外安插有4块热备盘,并做了Raid1保护,数据安全可靠。目前,所有营帐系统(包括营业、计费、帐务、入库、静态出帐、短信、结算和缴费卡等系统)的数据全部整合在该台DMX2000上。
经营分析系统由2台HP rp84系列服务器和2台 HP RP74系列服务器,1台EMC Symmetrix8830磁盘阵列、2台32口光纤交换机组成。主机分别做成双机热备,分别运行DW、ODS、RBA和CRM系统;所有数据整合在EMC Symmetrix8830存储中。
******的新机房大楼也于本次营帐系统割接的同时投入使用。省计费中心在以前建设当中曾经使用过同城另外一个机房,该机房网络传输合配套设备齐全,相距新机房10公里左右,适合做容灾远程机房。
2、******系统业务特点
根据我们对******系统的综合分析,我们发现,******系统的业务特点为:
.业务量大,数据更新频繁,实时性要求高;
.社会影响较大,要求数据的正确性和一致性,要求业务灾难恢复时间短;
.业务系统性能要求高,要求存储设备IO响应能力,数据远程复制高性能;
.业务系统高可靠性要求高,要求数据复制的高可用性和数据的完整性;
.数据量大,且发展迅速;
根据以上业务特点,通过对现有系统的分析和多种方案的科学论证,制定了完善的远程数据备份系统规划及建设目标,要求综合考虑以下要素确保在灾难发生时,核心业务数据和数据的完整性、一致性不会受损、丢失,并可以由另一数据中心及时恢复业务系统的正常运行。
3、远程容灾建立目标
在******建立远程容灾的计划中,按照业务的重要性不同,我们计划建立一套营帐系统的远程应用级实时同步的容灾系统,采用三级体系的科学设计:
第一级,为了避免系统单点失效而影响整个系统的情况出现,采用冗余的手段,大到主机,存储设备,小到光纤适配器,均具备冗余容错功能;
第二级,无论是主机或存储设备出现故障,均可通过主/容灾中心光纤交换机之间的连接来保证通信和数据的完整性;
第三级,万一主数据中心出现意外灾难,系统可以迅速切换到备份数据中心,并可从容灾中心切换到主中心。
三级体系的科学设计保证了******远程容灾系统的高度可用性和可靠性。并要做到如下几个目标:
◆ 最大限度地保护业务数据的实时性,完整性。
◆ 最大限度地保护业务数据的实时性,完整性和一致性键业务运行风险。
◆ 降低关键业务运行风险。
◆ 增强数据中心的可用性和业务规划的灵活性。
◆ 增强******的核心竞争能力。
充分考虑应用、数据和系统各级的保护,做到:数据中心任何计算机系统硬件,软件,应用故障不影响整个中心的处理工作;数据中心由于灾难(火灾、地震)等原因无法工作时,有备份数据中心立即接管关键应用,继续运行;主数据中心恢复后,应用、数据可以迅速切换回主中心运行。
三、远程容灾建设方案
1、 远程容灾建设总体计划
在实施远程容灾建设之前,为了保证系统建设的可靠性、安全性和有序性,我们必须在实施建设时做好如下工作:
1)、成立容灾项目管理小组:负责容灾系统建设的管理;
2)、对******系统现状和问题进行分析:制定出分析报告;
3)、对灾难恢复需求的综合评估:包括容灾目标(RTO),灾难承受程度,业务影响程度,数据保护程度,性能,管理水平,投资力度;
4)、实施计划的制定:形成书面性文字,为容灾系统建设提供文字指导和建设流程;
5)、选择容灾方案实施公司:实施方必须具备丰富的行业实施经验;
6)、实施方案的规划与设计:方案必须保证******业务数据的安全和业务的连续性;
7)、容灾系统的硬件和软件配置建设;
8)、零风险的灾难恢复演练;
9)、容灾流程的规整;
10)、灾难恢复演习结果分析;
11)、远程容灾系统性能调优;
12)、容灾系统的潜在隐患纠查;
13)、经验总结与改进建议。
2、方案实施的总体思路
根据******现有的系统环境,我们制定出了实现远程容灾一个总体思路:
因为******目前拥有着分别以EMC Symmetrix8830和EMC DMX2000存储为中心的营帐业务系统和经营分析业务系统两个核心系统,同时拥有一个省数据中心机房和一个网络备份机房。我们可以把网络的备份机房改造成新的容灾机房,利用新老机房搬迁的机会将以EMC Symmetrix8830存储为中心的经营分析系统(包括主机和存储)放到远程的容灾机房,将EMC Symmetrix8830作为容灾端,对EMC DMX2000上的营帐系统进行远程容灾,并利用经营分析系统的服务器作为远程容灾的应用服务器。因为可以利用EMC SRDF可以实现存储的底层同步,将数据的损失降至最低,而且不需要主机干涉,同步的时候不会对经营分析系统造成太大的影响,所以远程容灾服务器同时可以作为经营分析系统服务器和远程容灾应用服务器,当出现营帐系统灾难的时候,我们可以优先营帐系统的应用,将经营分析系统暂时停掉,以满足营帐系统的资源要求,这样我们就可以建立一个应用级的远程容灾;
3、方案实施的具体方案
现在具体对远程容灾实现方案描述如下。
为了实现存储系统热备份,必须在生产机房和容灾机房两端各部署2台光纤交换机,并要在每台交换机上配置1-2个远程光纤模块。由于主中心和容灾中心相隔比较远,而多模光纤直联所支持的最大距离为500米,单模光纤直联所支持的最大距离为10公里,因此两生产中心和容灾中心之间的光纤要通过DWDM设备连接起来,在两台存储系统上各配置远程光纤接口卡两块(已经配置),分别用来连接两个光纤交换机,每台交换机上有1-2个长波端口,端口速率都为2GB/s大小,最远可以支持到35KM,在两台存储系统之间通过两根单模光纤进行连接,实现数据同步,带宽为2GB/s,以保证容灾系统运行时对生产系统的性能没有影响。同时所有的线路和设备都采用双备份原则建设,保证一主一备,防止单点故障。
在主数据中心和容灾中心,按照高可靠性原则,采用MC/Service Guard软件配置双服务器,从而提供了高可靠性环境。主中心和容灾中心的服务器使用光纤通道卡通过光纤交换机和单模光缆分别连接两个中心的存储磁盘阵列,可以分别访问两个数据中心的磁盘阵列,整个系统为SAN存储体系结构。同时,为保证主机系统的高可用性和I/O访问性能,在主机上配置使用EMC powerpath均衡负载软件,用来均衡通道负载和切换故障通道。
EMC Symmetrix8830和EMC DMX2000存储都采用RAID1的方式对磁盘进行保护,因为营帐系统的数据量很大,通过讨论确定后的容灾内容包括营业、帐务、二批和交费卡、接口等业务,总容量也已经达到了大概为9.5TB左右;而容灾端的EMC Symmetrix8830存储容量在满足经营分析系统的存储需求(可用7TB左右)之后,可以留给容灾系统的存储大概不到5TB左右。考虑到容灾如果使用镜像盘比较浪费,而且在单盘出现问题后可以及时的同步,所以我们将EMC Symmetrix8830上的存储空间分为两个区域,一块区域的磁盘分配给经营分析系统使用,磁盘保护采用Raid1方式,而剩余的磁盘全部不做RAID即单盘作为容灾磁盘使用,并且两个区域单独分开互不影响;这样就解决了容灾存储不够的问题,不仅节约了投资,也很好的解决了问题。
主中心和容灾中心的磁盘阵列之间通过光纤链路,DWDM设备和单模光纤实现直接连接。存储设备数据复制通过EMC存储系统提供的同步功能完成。实现数据实时同步,两边数据完全一致。因为同步过程对主机系统,数据库和应用系统完全透明,所以在容灾两端的设备环境一样的情况下,可以实现远程数据级容灾时无需对数据库配置和应用系统进行任何改动,可以做到灾难发生时实现应用处理过程的快速恢复。
按照此次容灾的系统内容,我们按照不同的业务系统的种类将容灾同步分成了多个Rdf group,每个Rdf Group对一个应用系统,这样不仅为以后容灾软件的手工管理提供了极大的方便,也让数据同步的内容显的异常清晰。这样,我们可以单独对某一个业务起停容灾,一旦主中心的某个业务出现不能恢复的灾难时,我们可以只启动这个业务的容灾系统,可以更灵活的满足业务需要。
存储设备数据复制通过存储系统提供的同步功能完成,实现数据实时同步,两边数据完全一致。
除此之外,在主生产中心,我们使用已有的昆腾P7000大型磁带库备份设备和legato备份软件对关键数据定期进行备份,并及时将备份数据磁带进行异地备份,实现真正意义上的数据高可用性和数据安全性。
经过上述方案实施后后,所有重要业务数据的远程同步拷贝,实现了用户重要业务数据的远程异地保存。
四、方案总结和效果评估
通过严密规划和部署,我公司的容灾系统于2006年初顺利实施完毕,并经过了认真的测试和演练。
从结构上,可以看出本方案是一套可用性高的数据容灾解决方案:首先,它避免了出现单点故障,大到主机、存储设备,小到光纤适配器,所有部件均是冗余容错的;其次,无论主机还是存储设备出现故障,均可通过主/容灾中心的光纤交换机连接来保证通信和数据的完整性;第三,万一主数据中心出现意外灾难,系统可以切换到容灾数据中心,从而保证系统的最高可用性。
本容灾方案充分考虑到了应用、数据和系统各级的保护,做到了:数据中心任何计算机系统硬件,软件,应用故障不影响整个中心的处理工作;数据中心由于灾难(火灾、地震)等原因无法工作时,有容灾数据中心能够接管关键应用,继续运行;主数据中心恢复后,应用、数据可以迅速切换回主中心运行。
另外,从设计上,本方案充分考虑了原有系统现状,将经营分析生产环境搬迁到容灾机房,经营分析系统的主机同时充当容灾系统的应用主机,在未新购主机设备的情况下实现了应用级的容灾,使现有设备备充分利用,节约了投资,也提高了系统的利用度。
这套应用级远程容灾系统的建设成功,使******核心系统的稳定运行能力得到了进一步的提高,为公司市场竞争力和服务水平的提高提供了更强有力的技术保障。