利用虚拟基础架构做好应对业务灾难的准备

利用虚拟基础架构做好应对业务灾难的准备
对于严重依赖于信息系统的业务运营而言，应用程序停运即使时间很短，也会造成严重的影响。如
果发生数据丢失，影响将更加巨大。 IDC 估计：在发生灾难的情况下，平均每次事故将损失 $3,000,000，
而每小时将损失 $381,000。
　　要建立一套高效的业务连续性策略，企业必须对其 IT 应用程序进行评估，并确定各个应用程序对业
务运营的重要性。一套全面的业务连续性策略由多项内容组成，其中包括：向不同应用程序提供的从灾难
预防到热站点和数据备份等灾难保护方法，灾难发生时的人员配备计划，文档完备的行动计划，以及审核
和测试流程。要测算将特定应用程序或系统包括在灾难保护计划（从属于大的业务连续性计划）中的成本，
就应该从此应用程序潜在的风险程度和它停止工作可能造成的影响两方面来测算。对应用程序实施灾难恢
复的解决方案的成本应低于停机造成的影响。
　　对于一家成功的企业而言，业务连续性和灾难恢复 (DR) 计划是管理风险的关键。如果没有建立起
主动式灾难恢复计划，在遭受一次严重的灾难后，大约有 60% 到 90% 的公司会在两年内停业。但是，
如果希望在短时间内实施一套可靠的恢复策略，费用会非常昂贵，原因是这需要负担用于镜像主数据中心
设备的恢复设备。对主目标设备和恢复目标设备的升级必须同步进行，因此很多公司只得放弃这一流程。
有些公司采用了一种折衷的灾难恢复策略，例如：仅对最关键的应用程序进行灾难恢复、对不同的设备采
用人工流程，或采取外包的方式，以降低因 DR 中心灾难保护能力不足而在应用程序支持范围、可接受的
停机时间和恢复的可靠性等方面存在的风险。这种方法同样很被动。实际上，越来越多的企业在使用虚拟
基础架构实现经济高效的灾难恢复。
商业上可行的业务连续性策略
　　灾难补救计划过程中有几种常用的标准。其中最常用的两种标准是恢复点目标 (RPO) 和恢复时间
目标 (RTO)。RPO 指的是在发生灾难时，恢复的数据未与生产数据同步的时间长度。 RTO 指的是恢复
操作所需的时间。其他需要考虑的问题就是，如果只是部分恢复 IT 系统，能否在灾难发生后恢复业务运
营。
问题的补救措施与问题本身一样五花八门。让我们看几个可能用于业务连续性的信息系统 (IS) 设计。
? 连续可用性。在该体系结构中，工作负载平衡加载到多个平台上（通常分布于不同的地理位置）。并为
每个平台调配了备用能力。一个平台发生故障后，就会将它的工作负载分配给剩余的平台。这种方法的
优点在于即使是在发生灾难后，公司仍能维持业务运营。
? 在线和近线站点备份。这种策略假设故障切换站点可用，它配备了电源、冷却设备、网络连接、物理安
全保护，以及所有其他关键要求。如果发生灾难，故障切换站点有足够的设备可用于恢复业务运营。这
种方法的优点在于它不像连续可用性方法一样需要完整的系统检查。
? 备份到磁带。最广为人知的方法，使用一种流行的备份管理软件包将数据备份到磁带上。这种方法执
行的是文件对文件的备份。然后异地存储这些磁带，以备发生灾难时进行补救。这种方法最经济，而且在
发生重大灾难时，还可以使用相同的方法应对需要谨慎处理的数据问题（即，意外删除文件）并执行恢复。
但是，这使得业务运营的恢复时间变得很难预测。
论商业上可行的业务连续性策略在实施业务连续性计划的成本和潜在停机造成的影响及其可能性之间
取得了良好的平衡。这些更加经济高效的方法允许 IT 专业人士在更广泛的应用程序支持范围内实施连续
性计划，实现几乎不中断的运营。借助虚拟基础架构，中型企业也具备了实现业务连续性的商业可行性，
而且它的支持范围大于最关键 IT 应用程序中的前 5%。
　　　　　　　如何利用虚拟化技术提高业务连续性
　　虚拟基础架构在计算、存储器和网络硬件以及在其上运行的软件之间提供了一个抽象层，简化了 IT
计算体系结构，可以控制成本，并提高响应速度。使用虚拟基础架构，应用程序和服务可以调配到任何 x86
系统上，并在条件发生变化后可以轻松地在服务器间转移。虚拟基础架构将业界标准服务器、与它们连接
的网络和存储器聚合到统一的资源池中。这些服务器封装为独立于硬件的虚拟机，这些虚拟机可以使用预
定义的资源分配运行在资源池中的任何主机上。
　　以目前市场上采用较多的VMware Infrastructure 产品套件为例，是一套提供构建虚拟基础结构所需的
服务器虚拟化和管理软件。通过提高效率、灵活性和响应能力，可以帮助企业降低IT 成本。可以将数据
中心视为一个单独的处理、存储和网络资源池。它创建了一个统一的硬件映像，该硬件映像使用软件实施，
而且还能运行操作系统和应用程序。在此平台的顶层，该产品套件提供了对虚拟机的管理和调配，连续的
工作负载整合，物理服务器之间的平衡，以及对虚拟机执行实时迁移的 VMotion 技术。硬件管理完全独
立于软件管理，硬件设备可以视为一个单独的处理、存储和网络资源池，可以将它随时分配给各个软件服
务，也可以从软件服务取消分配。
实现业务连续性的工具多种多样，但是，由于 Windows 操作系统设计的特点，即使是最高级的工具
也只能在目标物理平台和源物理平台完全相同的时候提供完全恢复。在故障切换站点保持完全相同的物理
平台，意味必须同步升级主站和故障切换站的硬件，这无疑会大大增加费用，以至无法实现。恢复到不同
的平台通常又不可靠，而且还会涉及很多复杂的人工操作步骤。
　　为了帮助企业进行灾难恢复计划，操作系统供应商、应用程序供应商和备份管理软件供应商开发了专
用的 API 和工具，并制订了最佳实施方案。有些应用程序和数据具有行为表现明显不同的模块，这就要求
各个模块具有不同的灾难恢复策略。由于使用了大量的工具，企业 IT 管理员必须学习很多新工具，并为
灾难恢复策略涉及的每个应用程序设计新策略。
固有的连续可用能力
　　VMware Infrastructure 提供了多个级别的固有高可用性。虚拟机的本质决定了它们可以跨某台物理
服务器上的所有虚拟机利用该服务器的高可用特性。它改变了设计信息系统的方式，具有在任意虚拟化平
台之间迁移虚拟机、快照、在资源池中的备用主机上自动重新启动以及 VMotion 等高级功能特性，因而
在它创建的环境中，停机至多不过就是简单的重新启动而已。对于防止应用程序或硬件发生故障的连续可
用性解决方案来说，VMware HA 对运行在虚拟机中的应用程序提供了易于使用、经济高效的保护。如果
服务器发生故障，受影响的虚拟机将在 VMware Infrastructure 资源池中具有备用能力的其他物理服务器
上自动重新启动。
当需要不中断应用程序的连续可用性解决方案时，使用比通常情况下常规故障切换群集所需的少的多
的服务器，就可以实现驻留在不同物理硬件平台上的虚拟机间的 N+1 群集。最后，如果担心会发生区域
性灾难，与 SAN 及数据复制技术相结合的虚拟基础架构可提供最高程度的保护。客户可在主存储阵列和
故障切换存储阵列之间使用数据复制，并在整合的故障切换站点上启动虚拟机。
硬件独立性
对于业务连续性来说，虚拟化的主要优点之一是恢复过程独立于恢复硬件。由于虚拟机封装了完整的
环境，包括数据、应用程序、操作系统、BIOS 和虚拟化硬件，因此可以不考虑底层硬件的差异，而使用
虚拟化平台将应用程序恢复到任何硬件。而不再受物理世界中必须恢复到相同平台的限制。
硬件整合
　　VMware 的企业客户积极利用 VMware 的整合性优点，服务于他们的生产和预生产服务器。对于
故障切换硬件来说，整合性还有更多的优点。因为所有工作负载同时发生故障的可能性极小，而在故障切
换设备中，临时性地提供较低的应用程序性能通常是可以接受的，所以客户遇到的故障切换设备的整合率
通常会达到主数据中心整合率的两倍。工作负载的移动性和硬件的高度整合产生的结果出乎意料，那就是
企业可以在几乎不影响性能的情况下，让硬件超额承担工作负载，进而使自营式灾难恢复模式在经济上变
得非常有吸引力。
利用虚拟化的业务连续性解决方案
　　VMware HA 不间断地监控资源池中的所有服务器并检测服务器故障。放置在每台服务器上的代理不
断向资源池中的其他服务器发出“心跳信号”，一旦丢失“心跳信号”，将启动所有受影响的虚拟机在其他
服务器上的重启过程。
　　当要求 100% 正常运行时间时，IT 管理员可以在运行关键工作负载的物理计算机和配置相似的虚拟
机之间创建一个群集。虚拟机在备用模式中不消耗计算资源，并且可以以极高的整合率整合到一个或几个
物理平台中。虚拟机和对应的物理设备一样，支持相同的群集软件，包括 Microsoft 群集、Veritas 群集
和 Legato AAM，所以不需要 IT 更新。
　　结合存储区域网络 (SAN) 部署的虚拟基础架构本身更为稳定。驻留在 SAN 上的任何虚拟机都可以
经受运行该虚拟机的服务器的硬件崩溃，并可人工或在 VMware HA 的自动控制下在另一台 ESX Server
上重新启动。然而，最大的优点是 VMware VMotion 技术允许在计划停机之前将工作负载从某台物理计
算机迁移出，而不会造成用户停机。
　　为确保在几小时内完成系统和数据恢复，就必须与主数据中心设备同步升级辅助站点上的服务器硬
件。对于要求更为苛刻的工作负载来说，即使此方法可能也无法实现恢复时间目标。有了与基于阵列的复
制相结合的虚拟基础架构，企业就可以将封闭好的虚拟机复制到辅助站点，并在不需要人为干预的情况下，
在辅助站点以程序化的方法在任何可用的 ESX Server 上启动该虚拟机。
为了测试数据恢复，IT 管理员通常需要为每台备份计算机找到一台测试故障切换服务器，安装操作系
统和备份代理，然后尝试在测试故障切换服务器上调整 Windows 注册表和其他系统配置。所有这些问题
都可以通过使用虚拟化故障切换硬件来解决。另外，操作系统安装、备份代理安装和 Windows 注册表调
整只需要进行一次。

　　备份是所有灾难恢复策略的核心，使用虚拟基础架构，IT 管理员可提供比使用物理系统更加灵活的
选择方案。在这些选择方案中，第一个是可以继续对虚拟硬件使用现有的备份流程。第二个选择方案是在
ESX Server Management Console 或 VMware Server 主机操作系统中使用备份代理。第三个也是最灵
活的备份选择方案是 VMware Infrastructure 3 所带的 VMware Consolidated Backup 功能。
Consolidated Backup 是一组驱动程序和脚本，这些驱动程序和脚本可以使用业界标准的备份代理，实现
对集中式 Microsoft? Windows 2003 代理服务器上的虚拟机进行无局域网备份。
　　　　　　　　　虚拟化给业务连续性带来的好处
如果已经虚拟化辅助数据中心，则将立即体验到以下三点好处：
* 需保持相同型号的硬件，因为 IT 管理员可以将封装在虚拟机中的应用程序恢复至任何 x86 体系结
构的硬件，而无需获取专业裸机恢复工具的许可证。
* IT 可以整合数据中心的所有硬件，实现规模经济的好处。
* IT 管理员只需管理获取和恢复的单一数据类型，即封装的虚拟机。
由于辅助数据中心不需要具有和主数据中心相同型号的硬件，因此也不需要与主数据中心同步更新。
而主数据中心的服务器平均每三年就需要更换一次，辅助数据中心的服务器可能具有六年的寿命。对于主
数据中心逐步淘汰出的服务器，可以将它们重新部署到辅助数据中心以增加能力。
具有在数据中心的不同服务器间整合硬件资源以及平衡所有关键工作负载的能力后，将提高辅助数据
中心的整合率，同时对可用性的影响保持最低。服务器数量的减少的直接好处就是 TCO 大大降低，其原因
是电源和冷却要求及设备要求降低、布线和网元减少，还节约了硬件维护费用。由于减少了硬件更新的需
要（硬件寿命更长）、简化了恢复测试（测试一次即可恢复所有虚拟机），并缩短了人员培训的时间（所有
应用程序都具有统一的流程），因此节省了更多的 IT 工作
　　中型企业外包灾难恢复设备的趋势在过去几年比较普遍，但是最近有所下降。这种趋势发生转变的
原因是主要的承包商倾向于过度扩展他们的资源，造成服务质量下降，以及先来先服务的策略在区域性灾
难的情况下会带来更大的风险。虚拟化故障切换设备、整合故障切换服务器可以减少物理计算机的数量，
这样企业就能够进行内营，同时还能够保持与使用外包模式相同或更好的成本结构，并具有控制权，避免
风险。