网络存储导论
时成阁 Shi_warren@yahoo.com.cn Mobile Phone:13331981709 2005 年 6 月 22 日 于上海寓所
0
版权声明 本书描述和分析的内容可能涉及到但不限于:资讯、数据、文本、产品、图片、音像、录 像、软件、声音、图表等信息(以下简称“资料”),来源主要是作者通过实践经验的积累和公 开技术技术资料的分析,本书也主动收录部分“资料”,但不拥有“资料”中的任何权益(包括知 识产权),不代表同意其介绍或描述,也不构成任何投资或商务建议,仅为提供更多信息和促 进学术交流以及工程实现。 本书尽可能对“资料”的来源、作者或提供者做出明确描述,但并不负责检视“资料”中的所 有内容。因此,本书对“资料”所涉及的正确性、版权所属、或是合法性如何,并不负担任何责 任。本书有权但没有义务提高所提供“资料”的质量,以及改正或更新当前在“资料”中的任何错 误。 对于任何包含、经由、连接、下载或从任何与本书有关的服务(以下简称“服务”)所获得的“资 料”,不作任何明示或暗示的保证其内容的真实性、可靠性和准确性。并且,对于您使用“服务” 而展示、购买或获得的任何“资料”, 本书也不负担对品质保证的责任。您需要接受并承认因为 参考或信任任何“资料”所产生的风险自行承担。本书对于因为 “服务”或“资料”所产生的任何直 接、间接和附带的损害概不负责。 本书尊重他人的所有权益(包括知识产权),同时也要求使用者也尊重本书作者的所有权益。 本书所有的引用"资料",其版权均归原作者所有,附带版权声明的"资料",其版权以附带的版权 声明为准。本书无意从任何公司、组织或个人的权益中谋利,如果您认为您的作品被非法重制 或权益收到了损害,请通知作者更正,作者会及时处理。 本书适用于法律法规规定的其它有关免责规定。 作者保留所有权益, 2005 年 6 月 22 日。
1
网络存储导论
第一部分 基础知识-海量存储与数据备份 .............................................................................. 5 第一章 RAID 与大容量存储........................................................................................................... 5 1.1 RAID 概念........................................................................................................................... 5 1.2 RAID-0 等级 ..................................................................................................................... 7 1.3 RAID-1 等级 ....................................................................................................................... 8 1.4 RAID-2 等级 ..................................................................................................................... 9 1.5 RAID-3 等级 ..................................................................................................................... 12 1.6 RAID-4 等级 ................................................................................................................... 14 1.7 RAID5 等级...................................................................................................................... 15 第二章 磁盘存储阵列 ................................................................................................................... 17 2.1 磁盘阵列原理 ........................................................................................................................ 18 2.2 磁盘阵列的额外容错功能 .................................................................................................. 18 2.3 多数据流对磁盘阵列系统性能的影响 .............................................................................. 19 2.4 相关磁盘阵列存储术语 ...................................................................................................... 26 第三章 FC 交换机和 SAN............................................................................................................. 31 3.1 存储与网络.......................................................................................................................... 31 3.2 存储网络基础 ...................................................................................................................... 31 3.3 体系结构基础 ........................................................................................................................ 33 3.4 TCP/IP,Ethernet 和存储网络相结合的多层环境 .............................................................. 35 3.5 Cisco 推动的新一代多层智能化存储网络 ........................................................................... 37 3.6 存储网络的未来发展 ............................................................................................................ 40 3.7 如何建造企业 SAN 系统....................................................................................................... 42 3.8 小结:全面集成 .................................................................................................................... 50 第四章 备份带库 ........................................................................................................................... 51 4.1 磁带库基础 ............................................................................................................................ 51 4.2 磁带库的发展 ........................................................................................................................ 54 4.3 磁带库评估 ............................................................................................................................ 55 4.4 磁带库是存储的基础 ............................................................................................................ 56 第二部分 高级知识:数据系统整合..................................................................................... 58 第五章 数据分级存储 ..................................................................................................................... 58 5.1 分级存储的必要性 ................................................................................................................. 58 5.2 分级存储的优点 .................................................................................................................... 59 5.3 分级存储的存储方式 .......................................................................................................... 60 5.4 分级存储的管理 .................................................................................................................... 62 5.5 信息生命周期管理 ................................................................................................................ 62 5.6 分级存储案例:电视台的具体应用 .................................................................................... 64 第六章 数据迁移 ............................................................................................................................. 65 6.1 数据迁移的概念 .................................................................................................................... 65 6.2 数据迁移的特点 .................................................................................................................... 66 6.3 数据迁移的三种方法 ............................................................................................................ 66 6.4 数据迁移的实现 .................................................................................................................... 68 第七章 系统灾难备份 ..................................................................................................................... 72
2
7.1 容灾技术的意义 .................................................................................................................... 72 7.2 容灾技术的分类 .................................................................................................................... 73 7.3 容灾方法的具体分析 ............................................................................................................. 83 7.3 容灾技术性能总结和对照 .................................................................................................... 87 7.4 广域网络的高可用技术(软件容灾方式) ........................................................................ 88 第八章 系统恢复 ........................................................................................................................... 89 8.1 灾难后信息安全的恢复规划 ................................................................................................ 89 8. 2 WAN 考虑因素.................................................................................................................... 91 第九章 IP SAN 系统设计 ............................................................................................................... 98 9.1 iSCSI 技术与应用................................................................................................................ 98 9.2 IP SAN 存储方案举例 ....................................................................................................... 104 9.3 IP SAN 容灾及备份方案 .................................................................................................. 117 9.4 IP 存储发展 ....................................................................................................................... 126 第三部分 应用知识............................................................................................................ 130 第十章 一般 SAN 系统搭建 ......................................................................................................... 130 10.1 大型企业综合存储系统 .................................................................................................... 131 10.2 券商容灾系统 .................................................................................................................... 134 10.3 移动业务逻辑独立的存储系统 ...................................................................................... 138 10.4 不成功的 SAN 应用........................................................................................................... 141 第十一章 数据中心设计 ............................................................................................................... 143 11.1 概 述 ................................................................................................................................ 143 11.2 需求分析和设计目标 ...................................................................................................... 143 11.3 系统设计原则 .................................................................................................................... 148 11.4 系统方案设计 .................................................................................................................... 150 第十二章 海量存储系统设计 ....................................................................................................... 158 12.1 海量数据存储系统架构方案 ............................................................................................. 158 12.2 备份系统设计 .................................................................................................................... 167 12.3 海量存储系统扩展能力分析 ............................................................................................ 175 第十三章 容灾系统设计 ............................................................................................................... 181 13.1 容灾方法的具体分析 ........................................................................................................ 181 13.2 采用 SAN 进行远程容灾的实现 ....................................................................................... 185 第四部分 存储产业的组织和推动力 .................................................................................... 188 第十四章 国际存储技术组织简介.............................................................................................. 188 14.1 SNIA .................................................................................................................................... 188 14.2 互联网工程任务组(IETF).................................................................................................. 190 现有设备厂商简介 ............................................................................................... 194 第十五章 15.1 HDS 公司的 HDS 9900V.................................................................................................... 194 15.2 McData 产品介绍............................................................................................................... 231 15.3 IBM 存储产品解决方案..................................................................................................... 237 15.3 IBM TotalStorage 企业存储解决方案 .............................................. 错误!未定义书签。 15.4 Netapp 产品分析 ................................................................................................................ 249 15.5 磁带库产品介绍 ................................................................................................................ 286 第十六章 专用术语参考表 ......................................................................................................... 298 16.1 SAN 专用术语..................................................................................................................... 298 16.2 NAS 技术术语..................................................................................................................... 315
3
4
第一部分
第一章 1.1
基础知识-海量存储与数据备份
RAID 与大容量存储
RAID 概念 RAID 的英文全称为 Redundant Array of Inexpensive(或 Independent) Disks,而不是某些
词典中所说的“ Redundant Access Independent Disks”。中文名称是廉价(独立)磁盘冗余阵列。 RAID 的初衷主要是为了大型服务器提供高端的存储功能和冗余的数据安全。在系统中, RAID 被看作是一个逻辑分区,但是它是由多个硬盘组成的(最少两块)。它通过在多个硬盘 上同时存储和读取数据来大幅提高存储系统的数据吞吐量(Throughput),而且在很多 RAID 模式中都有较为完备的相互校验/恢复的措施,甚至是直接相互的镜像备份,从而大大提高了 RAID 系统的容错度,提高了系统的稳定冗余性,这也是 Redundant 一词的由来。 RAID 以前一直是 SCSI 领域的独有产品,因为它当时的技术与成本也限制了其在低端市场 的发展。今天,随着 RAID 技术的日益成熟与厂商的不断努力,存储工程师已经能够享受到相 对成本低廉得多的 IDE-RAID 系统,虽然稳定与可靠性还不可能与 SCSI-RAID 相比,但它相对 于单个硬盘的性能优势对广大玩家是一个不小的诱惑。事实上,对于日常的低强度操作, IDE-RAID 已足能胜任了。 与 Modem 一样,RAID 也有全软、半软半硬与全硬之分,全软 RAID 就是指 RAID 的所有 功能都是操作系统(OS)与 CPU 来完成,没有第三方的控制/处理(业界称其为 RAID 协处理 器——RAID Co-Processor)与 I/O 芯片。这样,有关 RAID 的所有任务的处理都由 CPU 来完成, 可想而知这是效率最低的一种 RAID。半软半硬 RAID 则主要缺乏自己的 I/O 处理芯片,所以这 方面的工作仍要由 CPU 与驱动程序来完成。而且,半软半硬 RAID 所采用的 RAID 控制/处理芯 片的能力一般都比较弱,不能支持高的 RAID 等级。全硬的 RAID 则全面具备了自己的 RAID 控制/处理与 I/O 处理芯片,甚至还有阵列缓冲(Array Buffer),对 CPU 的占用率以及整体性 能是这三种类型中最优势的,但设备成本也是三种类型中最高的。早期市场上所出现的使用 HighPoint HPT 368、370 以及 PROMISE 芯片的 IDE RAID 卡与集成它们的主板都是半软半硬的 RAID,并不是真正的硬 RAID,因为它们没有自己专用的 I/O 处理器。而且,这两个公司的 RAID
5
控制/处理芯片的能力较弱,不能完成复杂的处理任务,因此还不支持 RAID 5 等级。著名的
6
Adpatec 公司所出品的 AAA-UDMA RAID 卡则是全硬 RAID 的代表之作,其上有专用的高级 RAID Co-Processor 和 Intel 960 专用 I/O 处理器,完全支持 RAID 5 等级,是目前最高级的 IDE-RAID 产品。表 1 就是典型的软件 RAID 与硬 RAID 在行业应用中的比较。
RAID 发展至今共有 10 个主要的等级,下面就将依次介绍
1.2 RAID-0 等级 RAID0 全称叫做 Striped Disk Array without Fault Tolerance(没有容错设计的条带磁盘阵 列)。图中一个圆柱就是一块磁盘(以下均是),它们并联在一起。从图中可以看出,RAID 0 在存储数据时由 RAID 控制器(硬件或软件)分割成大小相同的数据条,同时写入阵列中的磁 盘。如果发挥一下想象力,你会觉得数据象一条带子横跨过所有的阵列磁盘,每个磁盘上的条 带深度则是一样的。至于每个条带的深度则要看所采用的 RAID 类型,在 NT 系统的软 RAID 0 等级中,每个条带深度只有 64KB 一种选项,而在硬 RAID 0 等级,可以提供 8、16、32、64 以及 128KB 等多种深度参数。Striped 是 RAID 的一种典型方式,在很多 RAID 术语解释中,都 把 Striped 指向 RAID 0。在读取时,也是顺序从阵列磁盘中读取后再由 RAID 控制器进行组合
图 1-1 RAID-0 结构图解 再传送给系统,这也是 RAID 的一个最重要的特点。
这样,数据就等于并行的写入和读取,从而非常有助于提高存储系统的性能。对于两个硬 盘的 RAID 0 系统,提高一倍的读写性能可能有些夸张,毕竟要考虑到也同时缯加的数据分割 与组合等与 RAID 相关的操作处理时间,但比单个硬盘提高 50%的性能是完全可以的。 不过,RAID 0 还不能算是真正的 RAID,因为它没有数据冗余能力。由于没有备份或校验 恢复设计,在 RAID 0 阵列中任何一个硬盘损坏就可导致整个阵列数据的损坏,因为数据都是 分布存储的。下面总结一下 RAID 0 的特点:
7
图 1-2 RAID0 的特点
1.3
RAID-1 等级
图 1-3 RAID-1 结构图解 Mirroring and Duplexing(相互镜像) 对比 RAID 0 等级,存储工程师能发现硬盘的内容是两两相同的。这就是镜像——两个硬 盘的内容完全一样,这等于内容彼此备份。比如阵列中有两个硬盘,在写入时,RAID 控制器 并不是将数据分成条带而是将数据同时写入两个硬盘。这样,其中任何一个硬盘的数据出现问 题,可以马上从另一个硬盘中进行恢复。注意,这两个硬盘并不是主从关系,也就是说是相互 镜像/恢复的。
8
RAID 1 已经可以算是一种真正的 RAID 系统,它提供了强有力的数据容错能力,但这是由 一个硬盘的代价所带来的效果,而这个硬盘并不能增加整个阵列的有效容量。下面总结一下 RAID 1 的特点:
图 1-4 RAID1 的特点
1.4 RAID-2 等级 Hamming Code ECC(汉明码错误检测与修正)
图 1-5 针对 4 位数据的汉明码编码示意图
9
现在存储工程师要接触到 RAID 系统中最为复杂的等级之一。RAID 2 之所以复杂就是因为 它采用了早期的错误检测与修正技术——汉明码(Hamming Code)校验技术。因此在介绍 RAID 2 之前有必要讲讲汉明码的原理。 汉明码的原理: 汉明码是一个在原有数据中插入若干校验码来进行错误检查和纠正的编码技术。以典型的 4 位数据编码为例,汉明码将加入 3 个校验码,从而使实际传输的数据位达到 7 个(位),它 们的位置如果把上图中的位置横过来就是:
注:Dx 中的 x 是 2 的整数幂(下面的幂都是指整数幂)结果,多少幂取决于码位,D1 是 0 次幂,D8 是 3 次幂,想想二进制编码就知道了
图 1-6
汉明码原理
现以数据码 1101 为例讲讲汉明码的编码原理,此时 D8=1、D4=1、D2=0、D1=1,在 P1 编 码时,先将 D8、D4、D1 的二进制码相加,结果为奇数 3,汉明码对奇数结果编码为 1,偶数 结果为 0,因此 P1 值为 1,D8+D2+D1=2,为偶数,那么 P2 值为 0,D4+D2+D1=2,为偶数, P3 值为 0。这样,参照上文的位置表,汉明码处理的结果就是 1010101。在这个 4 位数据码的 例子中,存储工程师可以发现每个汉明码都是以三个数据码为基准进行编码的。图示就是它们 的对应表(图 1-6 ): 从编码形式上,存储工程师可以发现汉明码是一个校验很严谨的编码方式。在这个例子中, 通过对 4 个数据位的 3 个位的 3 次组合检测来达到具体码位的校验与修正目的(不过只允许一 个位出错,两个出错就无法检查出来了,这从下面的纠错例子中就能体现出来)。在校验时则 把每个汉明码与各自对应的数据位值相加,如果结果为偶数(纠错代码为 0)就是正确,如果 为奇数(纠错代码为 1)则说明当前汉明码所对应的三个数据位中有错误,此时再通过其他两 个汉明码各自的运算来确定具体是哪个位出了问题。
10
还是刚才的 1101 的例子,正确的编码应该是 1010101,如果第三个数据位在传输途中因干 扰而变成了 1,就成了 1010111。检测时,P1+D8+D4+D1 的结果是偶数 4,第一位纠错代码为 0,正确。P1+D8+D2+D1 的结果是奇数 3,第二位纠错代码为 1,有错误。P3+D4+D2+D1 的结 果是奇数 3,第三但纠错代码代码为 1,有错误。那么具体是哪个位有错误呢?三个纠错代码从 高到低排列为二进制编码 110,换算成十进制就是 6,也就是说第 6 位数据错了,而数据第三位 在汉明码编码后的位置正好是第 6 位。 那么汉明码的数量与数据位的数量之间有何比例呢?上面的例子中数据位是 4 位,加上 3 位汉明码是 7 位,而 2 的 3 次幂是 8。这其中就存在一个规律,即 2P≥P+D+1,其中 P 代表汉明 码的个数,D 代表数据位的个数,比如 4 位数据,加上 1 就是 5,而能大于 5 的 2 的幂数就是 3 (23=8,22=4)。这样,存储工程师就能算出任何数据位时所需要的汉明码位数:7 位数据时 需要 4 位汉明码(24>4+7+1),64 位数据时就需要 7 位汉明码(27>64+7+1),大家可以依 此推算。此时,它们的编码规也与 4 位时不一样了。 另外,汉明码加插的位置也是有规律的。以四位数据为例,第一个是汉明码是第一位,第 二个是第二位,第三个是第四位,1、2、4 都是 2 的整数幂结果,而这个幂次数是从 0 开始的 整数。这样存储工程师可以推断出来,汉明码的插入位置为 1(20)、2(21)、4(22)、8(23)、 16(24)、32(25)…… 说完汉明码,下面就开始介绍 RAID 2 等级。
图 1-7 RAID-2 结构图解 RAID 2 等级介绍: 由于汉明码是位为基础进行校验的,那么在 RAID2 中,一个硬盘在一个时间只存取一位的 信息。没错,就是这么恐怖。如图中所示,左边的为数据阵列,阵列中的每个硬盘一次只存储
11
一个位的数据。同理,右边的阵列(存储工程师称之为校验阵列)则是存储相应的汉明码,也 是一位一个硬盘。所以 RAID 2 中的硬盘数量取决于所设定的数据存储宽度。如果是 4 位的数 据宽度(这由用户决定),那么就需要 4 个数据硬盘和 3 个汉明码校验硬盘,如果是 64 位的位 宽呢?从上文介绍的计算方法中,就可以算出来,数据阵列需要 64 块硬盘,校验阵列需要 7 块 硬盘。 在写入时,RAID 2 在写入数据位同时还要计算出它们的汉明码并写入校验阵列,读取时也 要对数据即时地进行校验,最后再发向系统。通过上文的介绍,存储工程师知道汉明码只能纠 正一个位的错误,所以 RAID 2 也只能允许一个硬盘出问题,如果两个或以上的硬盘出问题, RAID 2 的数据就将受到破坏。但由于数据是以位为单位并行传输,所以传输率也相当快。 RAID 2 是早期为了能进行即时的数据校验而研制的一种技术(这在当时的 RAID 0、1 等级 中是无法做到的),从它的设计上看也是主要为了即时校验以保证数据安全,针对了当时对数 据即时安全性非常敏感的领域,如服务器、金融服务等。但由于花费太大(其实,从上面的分 析中可以看出如果数据位宽越大,用于校验阵列的相对投资就会越小,就如上面的 4:3 与 64:7), 成本昂贵,目前已基本不再使用,转而以更高级的即时检验 RAID 所代替,如 RAID 3、5 等。
图 1-8 RAID 2 特点 现在让存储工程师总结一下 RAID 2 的特点:
1.5
RAID-3 等级 Parallel transfer with parity(并行传输及校验)
12
RAID 2 等级的缺点相信大家已经很明白了,虽然能进行即时的 ECC,但成本极为昂贵。为 此,一种更为先进的即时 ECC 的 RAID 等级诞生,这就是 RAID 3。 RAID 3 是在 RAID 2 基础上发展而来的,主要的变化是用相对简单的异或逻辑运算(XOR, eXclusive OR)校验代替了相对复杂的汉明码校验,从而也大幅降低了成本。XOR 的校验原理 如下图 1-9: 这里的 A 与 B 值就代表了两个位,从中可以发现,A 与 B 一样时,XOR 结果为 0,A 与 B
图 1-9 XOR 的校验原理 不一样时,XOR 结果就是 1,而且知道 XOR 结果和 A 与 B 中的任何一个数值,就可以反推出 另一个数值。比如 A 为 1,XOR 结果为 1,那么 B 肯定为 0,如果 XOR 结果为 0,那么 B 肯定 为 1。这就是 XOR 编码与校验的基本原理。 RAID 3 的结构图如下:
图 1-10 RAID-3 结构图解 从图中可以发现,校验盘只有一个,而数据与 RAID 0 一样是分成条带(Stripe)存入数据 阵列中,这个条带的深度的单位为字节而不再是 bit 了。在数据存入时,数据阵列中处于同一等 级的条带的 XOR 校验编码被即时写在校验盘相应的位置,所以彼此不会干扰混乱。读取时,则
13
在调出条带的同时检查校验盘中相应的 XOR 编码,进行即时的 ECC。由于在读写时与 RAID 0 很相似,所以 RAID 3 具有很高的数据传输效率。 RAID 3 在 RAID 2 基础上成功地进行结构与运算的简化,曾受到广泛的欢迎,并大量应用。 直到更为先进高效的 RAID 5 出现后,RAID 3 才开始慢慢退出市场。下面让存储工程师总结一 下 RAID 3 的特点:
注:主轴同步是指阵列中所有硬盘的主轴马达同步
图 1-11 RAID 3 的特点
1.6 RAID-4 等级 Independent Data disks with shared Parity disk(独立的数据硬盘与共享的校验硬盘) RAID 3 英文定义是 Parallel transfer with parity,即并行传输及校验。与之相比,RAID 4 则 是一种相对独立的形式,这也是它与 RAID 3 的最大不同。
图 1-12 RAID-4 图解
14
与 RAID 3 相比,存储工程师发现关键之处是把条带改成了“块”。即 RAID 4 是按数据块为 单位存储的,那么数据块应该怎么理解呢?简单的话,一个数据块是一个完整的数据集合,比 如一个文件就是一个典型的数据块。RAID 4 这样按块存储可以保证块的完整,不受因分条带存 储在其他硬盘上而可能产生的不利影响(比如当其他多个硬盘损坏时,数据就完了)。 不过,在不同硬盘上的同级数据块也都通过 XOR 进行校验,结果保存在单独的校验盘。所 谓同级的概念就是指在每个硬盘中同一柱面同一扇区位置的数据算是同级。在写入时,RAID 就是按这个方法把各硬盘上同级数据的校验统一写入校验盘,等读取时再即时进行校验。因此 即使是当前硬盘上的数据块损坏,也可以通过 XOR 校验值和其他硬盘上的同级数据进行恢复。 由于 RAID 4 在写入时要等一个硬盘写完后才能写一下个,并且还要写入校验数据所以写入效 率比较差,读取时也是一个硬盘一个硬盘的读,但校验迅速,所以相对速度更快。总之,RAID
图 1-13
RAID-4 特点
4 并不为速度而设计。下面存储工程师总结一下 RAID 4 的特点:
1.7
RAID5 等级
RAID5 和 RAID4 相似但避免了 RAID4 的瓶颈,方法是不用校验磁盘而将校验数据以循 环的方式放在每一个磁盘中,RAID5 的控制比较复杂,尤其是利用硬件对磁盘阵列的控制,因 为这种方式的应用比其他的 RAID level 要掌握更多的事情,有更多的输出/入需求,既要速度快, 又要处理数据,计算校验值,做错误校正等,所以价格较高,其应用最好是 OLTP,至于用于 大型文件,不见得有最佳的性能。 RAID5 在不停机及容错的表现都很好,但如有磁盘故障,对性能的影响较大,大容量的快取 内存有助于维持性能,但在 OLTP 的应用上,因为每一笔数据或记录(record)都很小,对磁盘 的存取频繁,故有一定程度的影响。某一磁盘故障时,读取该磁盘的数据需把共用同一校验值
15
分段的所有数据及校验值读出来,再把故障磁盘的数据计算出来;写入时,除了要重覆读取的 程序外,还要再做校验值的计算,然后写入更新的数据及校验值;等换上新的磁盘,系统要计 算整个磁盘阵列的数据以回复故障磁盘的数据,时间要很长,如系统的工作负载很重的话,有很 多输出/入的需求在排队等候时,会把系统的性能拉下来。但如使用硬件磁盘阵列的话,其性能 就可以得到大幅度的改进,因为硬件磁盘阵列如 Arena 系列本身有内置的 CPU 与主机系统并行 运作,所有存取磁盘的输出入工作都在磁盘阵列本身完成,不花费主机的时间,配合磁盘阵列 的快取内存的使用,可以提高系统的整体性能,而优越的 SCSI 控制更能增加数据的传输速率, 即使在磁盘故障的情况下,主机系统的性能也不会有明显的降低。RAID5 要做的事情太多,所 以价格较贵,不适于小系统,但如果是大系统使用大的磁盘阵列的话,RAID5 却是最便宜的方 案。 这一点后续章节将详尽介绍。
16
第二章
磁盘存储阵列
如何增加磁盘的存取(access)速度,如何防止数据因磁盘的故障而失落及如何有效的利用 磁盘空间,一直是电脑专业人员和用户的困忧;而大容量磁盘的价格非常昂贵,对用户形成很 大的负担。磁盘阵列技术的产生一举解决了这些问题。 过去十年来,CPU 的处理速度几乎是几何级数的跃升,内存(memory)的存取速度亦大幅 增加,而数据储存装置 主要是磁盘(hard disk) 的存取速度相较之下,较为缓慢。整个 I/O 吞 吐量不能和系统匹配,形成电脑系统的瓶颈,拉低了电脑系统的整体性能(throughout)若不能 有效的提升磁盘的存取速度,CPU、内存及磁盘间的不平衡将使 CPU 及内存的改进形成浪费。 目前改进磁盘存取速度的方式主要有两种。一是磁盘快取控制(disk cache controller),它 将从磁盘读取的数据存在快取内存(cache memory)中以减少磁盘存取的次数,数据的读写都 在快取内存中进行,大幅增加存取的速度,如要读取的数据不在快取内存中,或要写数据到磁 盘时,才做磁盘的存取动作。这种方式在单工期环境(single-tasking envioronment)如 DOS 之 下,对大量数据的存取有很好的性能(量小且频繁的存取则不然),但在多工(multi-tasking) 环境之下(因为要不停的作数据交换(swapping)的动作)或数据库(database)的存取(因每 一记录都很小)就不能显示其性能。这种方式没有任何安全保障。 其一是使用磁盘阵列的技术。磁盘阵列是把多个磁盘组成一个阵列,当作单一磁盘使用, 它将数据以分段(striping)的方式储存在不同的磁盘中,存取数据时,阵列中的相关磁盘一起 动作,大幅减低数据的存取时间,同时有更佳的空间利用率。磁盘阵列所利用的不同的技术, 称为 RAID level,不同的 level 针对不同的系统及应用,以解决数据安全的问题。 一般高性能的磁盘阵列都是以硬件的形式来达成,进一步的把磁盘快取控制及磁盘阵列结 合在一个控制器(RAID controler)或控制卡上,针对不同的用户解决人们对磁盘输出/入系统的 四大要求:
(1) 增加存取速度。 (2) 容错(fault tolerance),即安全性。 (3) 有效的利用磁盘空间。 (4) 尽量的平衡 CPU,内存及磁盘的性能差异,提高电脑的整体工作性能。
17
2.1 磁盘阵列原理 1987 年,加州伯克利大学的一位人员发表了名为\"磁盘阵列研究\"的论文, 正式提到了 RAID 也就是磁盘阵列,论文提出廉价的 5.25″及 3.5″的硬盘也能如大机器上的 8″盘能提供大容量、高 性能和数据的一致性,并详述了 RAID1 至 5 的技术。 磁盘阵列针对不同的应用使用的不同技术,称为 RAID level,RAID 是 Redundant Array of Inexpensive Disks 的缩写,而每一 level 代表一种技术,目前业界公认的标准是 RAID0~RAID5。 这个 level 并不代表技术的高低,level5 并不高于 level3,level1 也不低于 level4,至于要选择哪 一种 RAID level 的产品,纯视用户的操作环境(operating environment)及应用(application) 而定,与 level 的高低没有必然的关系。RAID0 没有安全的保障,但其快速,所以适合高速 I/O 的系统;RAID1 适用于需安全性又要兼顾速度的系统,RAID2 及 RAID3 适用于大型电脑及影 像、CAD/CAM 等处理;RAID5 多用于 OLTP,因有金融机构及大型数据处理中心的迫切需要, 故使用较多而较有名气,但也因此形成很多人对磁盘阵列的误解,以为磁盘阵列非要 RAID5 不 可;RAID4 较少使用,和 RAID5 有其共同之处,但 RAID4 适合大量数据的存取。其他如 RAID6, RAID7,乃至 RAID10、50、100 等,都是厂商各做各的,并无一致的标准,在此不作说明。 总而言之,RAID0 及 RAID1 最适合 PC 服务器及图形工作站的用户,提供最佳的性能及最 便宜的价格,以低成本符合市场的需求。RAID2 及 RAID3 适用于大档案且输入输出需求不频繁 的应用如影像处理及 CAD/CAM 等;而 RAID5 则适用于银行、金融、股市、数据库等大型数据 处理中心的 OLTP 应用;RAID4 与 RAID5 有相同的特性及 用方式,但其较适用于大型文件的 读取。
2.2
磁盘阵列的额外容错功能
事实上容错功能已成为磁盘阵列最受青睐的特性,为了加强容错的功能以及使系统在磁盘 故障的情况下能迅速的重建数据,以维持系统的性能,一般的磁盘阵列系统都可使用热备份(hot spare or hot standby drive)的功能,所谓热备份是在建立(configure)磁盘阵列系统的时候,将 其中一磁盘指定为后备磁盘,此一磁盘在平常并不操作,但若阵列中某一磁盘发生故障时,磁 盘阵列即以后备磁盘取代故障磁盘,并自动将故障磁盘的数据重建(rebuild)在后备磁盘之上, 因为反应快速,加上快取内存减少了磁盘的存取,所以数据重建很快即可完成,对系统的性能 影响不大。对于要求不停机的大型数据处理中心或控制中心而言,热备份更是一项重要的功能, 因为可避免晚间或无人守护时发生磁盘故障所引起的种种不便。
18
备份盘又有热备份与温备份之分,热备份盘和温备份盘的不同在于热备份盘和阵列一起运 转,一有故障时马上备援,而温备份盘虽然带电但并不运转,需要备援时才启动。两者分别在 是否运转及启动的时间,但温备份盘因不运转,理论上有较长的寿命。另一个额外的容错功能 是坏扇区转移(bad sector reassignment)。坏扇区是磁盘故障的主要原因,通常磁盘在读写时发 生坏扇区的情况即表示此磁盘故障,不能再作读写,甚至有很多系统会因为不能完成读写的动 作而死机,但若因为某一扇区的损坏而使工作不能完成或要更换磁盘,则使得系统性能大打折 扣,而系统的维护成本也未免太高了,坏扇区转移是当磁盘阵列系统发现磁盘有坏扇区时,以 另一空白且无故障的扇区取代该扇区,以延长磁盘的使用寿命,减少坏磁盘的发生率以及系统 的维护成本。所以坏扇区转移功能使磁盘阵列具有更好的容错性,同时使整个系统有最好的成 本效益比。其他如可外接电池备援磁盘阵列的快取内存,以避免突然断电时数据尚未写回磁盘 而丢失;或在 RAID1 时作写入一致性的检查等,虽是小技术,但亦不可忽视。
2.3
多数据流对磁盘阵列系统性能的影响
2.3.1 单主机连接情况下的磁盘阵列存储系统性能 一般在单主机连接的情况下,磁盘或磁盘阵列拥有最好的性能。由于目前几乎所有的操作 系统都是基于本身独自占有的文件系统,即文件系统只能被一个单一的操作系统所独有,所以 操作系统或基于操作系统的应用软件可以在对存储系统进行数据读写的时候,针对磁盘存储系 统的读写特点,无论操作系统还是应用软件都会对读写方式做最优化处理,以减少磁盘的物理 寻道次数,降低磁盘的机械反应时间。每个程序进程的数据请求对其它的数据请求来说是不确 定的,但由于操作系统本身的对数据访问的管理和控制,所有出自该操作系统的数据请求都被 操作系统做了有序化处理,因此对于磁盘或磁盘阵列来说,数据读写请求是被优化过的,或者 说在经过优化以后没有任何变化,这个时候存储系统拥有最佳的性能。 作为磁盘阵列,虽然在操作系统和各个磁盘驱动器之间增加了一层 RAID 控制器,但目前 所有的 RAID 控制器本身只作为对磁盘容错的管理和校验的计算等一些必要的操作,并不对数 据请求做合并、重新排序和优化处理,因为它的设计出发点是建立在单个主机连接的已经经过 操作系统优化的和排序的数据请求的基础之上,它所拥有的缓存也只有直接缓存和计算缓存的 功能,不对数据做排队处理,只是将主机端口过来的数据按着先进先计算先出的方式通过 CPU
19
计算校验以后写入磁盘。缓存的性能虽然非常快,但其容量相对于多媒体数据来说并不足够大, 在很快写满缓存以后,速度立即衰减到实际操作磁盘的速度。 所以 RAID 控制器的功能只是将许多磁盘组成一个或多个大的容错的磁盘,并且利用每个 磁盘上的缓存的缓冲存储功能提高整体的数据读写速度,RAID 控制器的读缓存可以在短时间 内再次读取同一数据的情况下明显提高磁盘阵列的读性能。整个磁盘阵列的实际的最高读写速 度受到主机通道带宽、控制器 CPU 的校验计算和系统控制能力(RAID 引擎)、磁盘通道带宽 和磁盘性能(每个磁盘有自己的最高性能,这里指多个磁盘总的实际性能)中的最低值的限制。 另外,操作系统的数据请求的优化基础与 RAID 格式不匹配,也会对磁盘阵列的性能造成很大 的影响,如 I/O 请求的数据块大小与 RAID 的数据段大小不匹配等。
2.3.2 多主机同时访问下,传统磁盘阵列存储系统的性能变化 首先分析在视音频应用环境中来自不同主机的多个媒体流对小规模磁盘阵列存储系统性能 的影响。 小规模磁盘阵列存储系统一般拥有单个或一对冗余的磁盘阵列控制器,所能连接的磁盘的 数量较少,具有基本的容错和管理功能,结构相对简单。 在存储区域网络的多主机共享存储环境中,虽然每台主机对自己所发出的数据请求做了排 序和优化,但各个主机之间的数据流对共享的存储系统来说是无序的,导致了更多的磁盘重新 寻道次数、更多的数据段头尾信息和更多的数据碎片读出、合并、校验计算和再写入过程。这 样导致存储的性能比单主机连接时下降许多,主机连接得越多,磁盘系统的性能下降的幅度就 越大。 图 2-1 显示了一个磁盘阵列在多主机同时访问的环境中的测试结果,多主机的同时访问造 成磁盘阵列总性能的衰减。一般情况下,不同磁盘阵列、不同的磁盘阵列设置和使用不同种类 的磁盘驱动器,测试结果会稍有不同,但都不可避免地出现性能明显衰减的状况。 其次,分析在视音频应用环境中来自不同主机的多个媒体流对大规模磁盘阵列存储系统性 能的影响。 所谓大规模磁盘阵列存储系统,一般是指在一个存储系统中使用总线结构或交叉点交换结 构将多个存储子系统(磁盘阵列)连接起来,并在总线中或交换结构中使用大容量的缓存和用 于更多主机连接的类似于通道集线器或交换机的主机连接模块,最后通过复杂的存储管理软件 组合成的大型的存储系统。这种存储系统可以提供比单个小的磁盘阵列更大的容量和更高的性
20
能。象采用总线结构的 EMC 的 Symmetrix 系统在单个磁盘阵列的性能只能达到 25 至 50M 字节 /秒时,它的最高性能就可以到 100M 字节/秒,甚至在使用 RAID10(磁盘镜像)时最高可到 200 至 300M 字节/秒。象采用总线结构和交叉点交换结构(最新的系统)日立的两种存储系统,也 可以到类似于 Symmetrix RAID10 的实际性能。 一般在这类存储系统中缓存对性能都有巨大的贡献,但只有在事务处理应用和类似于邮电 计费的应用中才起作用。几十 G 字节的缓存可以存储数小时的事务处理数据,系统可以从容地 在空闲时将数据写入磁盘,物理卷的非常小的数据段设置也足以说明这类存储系统只适合于事 务处理类应用。对于多媒体数据来说几十 G 字节的缓存相当于几十秒或几分钟的数据量,缓存
图 2-1 在多主机的数据流同时访问时小规模磁盘阵列总性能的衰减 写满以后将考验系统直接从磁盘上访问数据的能力。而一般的这类系统虽然拥有几十个 100M 字节/秒带宽的光纤通道主机连接端口,但内部集成的多个磁盘阵列子系统与一般的用于事务处 理的磁盘阵列并没有什么不同,磁盘阵列子系统的一个控制器的一个逻辑单元的性能在只有一 个主机访问这个逻辑单元的情况下可以有 25 至 50M 字节左右的实际性能。在多主机访问同一 个逻辑单元的情况下,由于在所有的这些系统中没有数据重新排序和优化功能(总线结构和交 叉点交换结构决定了这一点),所以同样会产生较大的性能影响。
但这种性能衰减与小规模的磁盘阵列的性能衰减有所不同。由于在这种大规模磁盘阵列存 储系统内部包括了相对独立的多个磁盘阵列子系统(例如四个或八个),每个磁盘阵列子系统 由一对磁盘控制器组成,在不同的主机访问不同的磁盘阵列子系统时各自的性能不受影响,只 受到系统总线带宽的限制。所以在多主机的数据流访问平均分布在不同的存储子系统中时,它 的多主机的支持能力可以是小规模磁盘阵列系统的几倍。
21
在这种大规模磁盘阵列存储系统中,一个逻辑单元只能建立在单个磁盘子系统中,由于单 个磁盘阵列子系统的内部串行结构,决定了一个逻辑单元只能通过一个串行路径来提供给用户, 所以大规模磁盘阵列存储系统并不能提高单个逻辑单元的性能。单个逻辑单元的性能很低,一 般只有 25 至 50M 字节/秒的实际性能。但在事务处理类应用中这种结构大大提高了性能,因为 在这类应用中可以根据事务处理的特点,每个事务处理数据都非常小,但数量庞大有一定的统 计规律性,可以利用数据库将同时到来的事务处理数据分类,将它们尽量平均分布在不同的磁 盘子系统中,同时利用磁盘子系统外部的大容量缓存,可以大大地提高整个存储系统的性能。 而对于视音频数据流的应用,用户数据访问的单个数据流一般都很大,但访问次数相对较小, 即使有一定的规律性也有可能发生对不同逻辑单元的需求不均衡的现象,这样极易造成某个逻 辑单元阻塞或性能明显下降。所以这种大规模磁盘阵列存储系统并不适合使用于视音频和多媒 体的应用领域。 第三,在视音频应用环境中来自不同主机的多个媒体流对 NAS 存储系统性能的影响。 NAS 存储系统是建立在传统 RAID 技术的基础上,发挥单个主机连接时磁盘阵列系统拥有 最好的性能的特点,使用 NFS 和 CIFS 协议将瘦服务器连接的存储系统通过以太网共享给外部 的用户。由于瘦服务器削减了与存储管理和数据通讯无关的各种功能,优化了 TCP/IP 协议的数 据传输能力,同时使用多个(目前最多十个)并行的 TCP/IP 数据传输,使单个 NAS 存储系统 的最大共享速度可以达到 60M 字节/秒左右。 在多主机连接的环境中,由于使用的是以太网的连接,来自不同主机的数据进入瘦服务器 以后通过瘦服务器的操作系统或数据管理应用软件的管理和重新排序后以最优的方式写入磁盘 系统,这样一来磁盘系统本身没有明显的性能衰减。这也是 NAS 存储能在目前得到相当的发展 的一个主要的原因之一,它的特点使它适合应用于需要数据共享的应用环境当中。 但是,NAS 有很多特点限制了它在视音频和多媒体应用领域的应用。一个独立的数据流只 能使用一个 TCP/IP 传输流,不能使用两个或两个以上的 TCP/IP 流来将一个媒体流分成几部分 同时传输。这样一来,由于单个 TCP/IP 流由其协议的限制最多可以到 6M 字节/秒左右,造成 对媒体流大小的限制。同时大多数媒体流具有实时性,而 TCP/IP 的打包传输特点不能提供一个 持续稳定的传输,会导致媒体流的掉帧的或质量的下降。NAS 的共享能力只有 60M 字节/秒, 而对于实时性很强的媒体流类型应用来说,有效的共享能力可能只有 30 至 40M 字节/秒,这种 有限的共享能力对存储工程师目前的需求来说是远远不够的。在媒体流应用中,如果用户的需 求超过 NAS 存储所能提供的共享能力时,将导致对每一个用户的服务质量下降。在使用多个 NAS 系统时,由于视音频数据流的应用的特点,用户数据访问的数据流一般都很大,但访问次 数相对较小,即使有一定的规律性也有可能发生对不同 NAS 系统的需求不均衡的现象,这样极
22
易造成某个 NAS 系统阻塞。所以 NAS 存储系统也同样不适合使用于视音频和多媒体的共享应 用领域。 以下举例分析。 产品 1:DataDirect Networks 公司的 SAN DataDirector DataDirect Networks 公司的 SAN DataDirector 存储区域网络设备是一个全新的存储系统概 念。它无论对单台主机有序的数据访问还是来自多台主机的不确定的数据访问,它都拥有同样 的高性能:单台 SDD 实际的写性能可以到 760M 字节/秒,实际的读性能可以到 800M 字节/秒, 单个逻辑单元的性能可以到 650 至 700M 字节/秒。这样高的性能来自于它的独特的对存储区域 网络的多主机环境进行专门设计的并行体系结构,它不只是一个高性能的存储系统,它还是一 个存储区域网络的基础结构设备。 多 CPU 的并行处理技术,尤其是其中的软件技术一直当今世界计算机应用领域的一大难 题。不同种类的 CPU 对于不同种类用途的并行处理能力是不同的,DataDirect Networks 公司采 用独特的软硬件技术率先将适用于 IO 处理的 RISC CPU 的并行处理技术应用于存储和存储区域 网络管理系统当中,彻底改变了总线结构和交叉点交换结构在这一领域的跟不上发展需求的现 状。 DataDirect Networks 公司的 SAN DataDirector 存储区域网络设备拥有八个用于连接主机或 连接存储区域网络连接设备的主机接口和二十个用于可以连接高达 1250 块磁盘驱动器的磁盘 接口。在每一个端口上都有一个用于与其它端口进行并行处理的 GALEFORCe 特定用途集成电 路。在这二十八个 GALEFORCe 特定用途集成电路中,每个包含一个 RISC 处理器,用于控制 和区分命令路径和数据路径,向主机以及存储器提供高速的数据传输路径。巨大的并行处理缓 存池与 DMA 之间的高速数据信息包传送机制和这些特定用途集成电路的结合,为所有的主机 提供了通过缓存池对所有的存储进行直接的和并行的访问能力。 由于所有的数据访问都要经过缓存,SDD 的并行处理机制将无论是来自单台主机的有序数 据访问请求还是来自多台主机的不确定的数据访问请求都进行重新排队和有序化,SDD 的并行 处理机制为来自所有端口的数据进行统一排序提供了基础。同时 SDD 的 GALEFORCe 特定用 途集成电路不只在互相之间做功能强大的并行处理,而且还利用磁盘驱动器提供的软件接口, 跟所有的与 SDD 磁盘端口相连接的磁盘驱动器的内置处理器进行并行处理,通过磁盘驱动器内 置处理器对数据请求命令再次排序并且充分有效地利用磁盘的自带缓存。这种独特的 SDD 与所 有磁盘驱动器的一体化并行处理,最大限度地、充分地最小化了驱动器的寻道次数,将磁盘驱 动器的机械反应时间降到最低。SDD 不但没有在多主机访问时产生性能衰减,而且还利用多台 主机的并发数据访问发挥出它的单台主机无法用到的极高的性能。
23
SDD 独有的另外一个突破性的技术是 directRAID 技术,它对系统性能的贡献与 SDD 的并 行处理技术同样重要。directRAID 技术结合并行处理技术征服了传统 RAID 技术的单数据流限 制,使多个校验组数据流可以在一个 directRAID 中并行存在,多个校验磁盘同时运行,在提供 无缝的数据保护的同时不引起丝毫的性能衰减。它的重建操作只需要传统 RAID 技术的三分之 一的时间,消除了传统 RAID 技术在重建时停止工作或性能明显下降的现象。 这种将冗余组和逻辑单元之间关系虚拟化的 directRAID 技术在首先提供了比传统 RAID 技 术的更高的数据保护功能以外,它为存储工程师带来了比传统的 RAID 系统高数十倍的单逻辑 单元并发数据访问性能,使单逻辑单元的数据访问能力可以达到 650 至 700M 字节/秒,并且这个 性能在多主机的情况下没有衰减。这种非常高的单逻辑单元性能解决了在视音频和多媒体的共 享应用环境中的对某一个逻辑单元数据的需求不均衡的现象造成的阻塞问题,消除了人工负载 均衡的难题。 DataDirect Networks 公司的 SAN DataDirector 存储区域网络设备是目前世界上拥有最高性 能价格比的存储系统,是适用于大规模视音频媒体流共享应用领域的存储系统中的最佳选择。 举例 2:HDS 公司的 Lightning9960 存储系统分析:
z
Lightning9960 的体系结构:
图 2-2
Lightning9960 磁盘阵列系统的体系结构(图中只给出数据通路的结构图)
24
Lightning9960 的体系结构如图一所示,主机接口最大可以使用四个 CHIP 对,每个 CHIP 对由两个可以互相备份(每个主机必须通过两个光纤通道适配器同时与两个 CHIP 的一个口连 接)的 CHIP 组成,每个 CHIP 拥有四个光纤通道(ESCON 接口在本文中将不涉及,但并不影 响存储工程师对性能的讨论)主机接口和两个用于与内部两个交换机连接的光纤通道接口,四 个 CHIP 对共有 32 个光纤通道主机接口和 16 个光纤通道的与内部交换机相连接的接口。在 Lightning9960 的中间采用两个 Crossbar 交换机,每个交换机都与每个 CHIP、每个缓存块和每 个磁盘阵列控制器的光纤通道相连接。Lightning9960 最多有四块 8GB 的缓存,缓存是 CHIP 与 控制器之间数据的必经缓冲区,它与交换机之间共有 16 个光纤通道连接(图中只画出了 8 个)。 在体系结构的最下面是四对磁盘阵列控制器,每对控制器有四个连接交换机的通道和 8 个用于 连接磁盘驱动器的磁盘通道。控制器对中的不同控制器的两个磁盘通道同时连接到双端口磁盘 的两个端口上提供备份连接,所以每对控制器实际有 4 个独立的磁盘通道。
z
Lightning9960 的数据通道带宽:
从 Lightning9960 的结构图中可以计算出每部分的带宽是:32 个光纤通道主机端口总带宽 为 3200MB/秒;CHIP 与交换机之间的总带宽为 1600MB/秒;在交换机到缓存之间的总带宽为 1600MB/秒;在缓存到交换机之间的总带宽为 1600MB/秒(缓存和交换机之间是双向传输所以 此项带宽与上一项带宽互相不影响);交换机到磁盘阵列控制器的总带宽为 1600MB/秒;内部 磁盘通道的总带宽为 1200MB/秒(因为每对磁盘阵列控制器的四个磁盘通道中在做 RAID5 时有 一个通道的带宽被用来做校验)。由于所有以上的带宽都是串行结构,所以 Lightning9960 的数 据通道实际总带宽受到链路中最小值 1200MB/秒的限制。但数据通道带宽并不等于整个系统的 实际性能,实际的性能将受到每个磁盘阵列控制器(ACP)的 RAID 引擎、系统整个体系结构 和应用环境的影响,下面将讨论在应用中的实际性能。 z
Lightning9960 的实际性能:
Lightning9960 存储系统中每个磁盘阵列的性能由于受到每个磁盘阵列控制器(ACP)的 RAID 引擎的限制,单个控制器的性能只有 60MB/秒左右,而且无论使用控制器的一个通道还 是两个通道结果都是同样的,这个结果是在单主机有序的数据请求下的实际结果。所有的 Lightning9960 中的 8 个控制器,在每个控制器都在单主机访问的情况下,总的最大的实际性能 为 480MB/秒左右。而在存储区域网络的实际应用环境中,数据访问来自多个主机,在这种情况 下,Lightning9960 的实际性能将迅速衰减,如果不确定的数据请求来自 8 台主机以上,总性能 将衰减到 100 到 200MB/秒左右。但在 Lightning9960 存储系统中,有 8 个用于主机连接的 CHIP, 它为系统在多主机连接情况下的实际性能的提高做了巨大的贡献。由于每个 CHIP 可以将与它 连接的所有的不同主机来的 I/O 请求重新排队,这样一来,从每个 CHIP 进入系统中的数据请求
25
变成有序的 I/O 请求,使整个系统的在无论连接多少个主机时,不确定的数据流只有 8 个来自 不同 CHIP 的数据流,优化了系统的性能。 在只有 8 个不确定的数据流的情况下,存储工程师来讨论一下 Lightning9960 存储系统的实 际性能。对单一控制器的逻辑单元来说,对它的数据访问有可能只来自一个 CHIP 也有可能来 自多个 CHIP(最多 8 个),外部连接的主机越多来自多个 CHIP 的可能性越大。而对于存储工 程师目前视音频媒体流应用中,共享的主机数量一般在几十个到几百个左右,在这种情况下, 对单一控制器的逻辑单元的数据访问来自多个 CHIP 的可能性较大,假如对某一控制器的逻辑 单元的数据访问来自 6 个左右的 CHIP,那么总的实际系统性能将在 200MB/秒左右。 在 Lightning9960 存储系统中单个 CHIP 对数据请求的排序,在一定程度上优化了系统的实 际性能,但多个 CHIP 之间没有进行统一排序使本系统的实际性能并没有得到很大提高。 在多媒体共享应用中,Lightning9960 存储系统中的单个逻辑单元的性能限制是一个非常严 重的缺陷,单个逻辑单元的最大性能只有 60MB/秒,而在处理同时来自不同 CHIP 的数据请求 时,性能将急剧下降,有可能只有 20MB/秒左右。 综上所述,从实际性能和单逻辑单元两方面来看,Lightning9960 存储系统适合用于对并发 流实际带宽要求不是很高的视音频流共享应用领域。但在事务处理类应用领域,因为大容量的 缓存可以存储数小时的数据,以及在这里没有讨论的比其他系统更强大的用于传输配置信息和 控制信息的具有 64 个入口的共享存储器(shared memory),使 Lightning9960 存储系统在该领 域有非常好的 I/O 处理性能表现,实际的 I/O 处理能力可以到 60000 个 I/Os 左右。
2.4 相关磁盘阵列存储术语 为了便于读者阅读本书的后续章节,这里给出了一部分必要的磁盘阵列存储术语。为了保 持章节的紧凑性,其具体技术细节不再进行介绍 z
SCSI
就是 Small Computer System Interface(小型计算机系统接口),它最早研制于 1979,是为小 型机研制出的一种接口技术,但随着电脑技术的发展,现在它被完全移植到了普通 PC 上。 z
ATA(AT 嵌入式接口)
即俗称的 IDE,设计该接口的目的就是为了将 1984 年制造的 AT 计算机中的总线直接与结 合在一起的驱动器和控制器相连。ATA 中的“AT”就来源于首次使用 ISA 总线的 AT 计算机。
26
ATA 从最早的 ATA-1 开始,已经经历了从 ATA-1、ATA-2、ATA-3、Ultra ATA、Ultra ATA/33、 Ultra ATA/66、Ultra ATA/100、Ultra ATA/133 的发展历程。 z
Serial ATA(串行 ATA)
采用的是串行数据传输方式,每一个时钟周期只传输一位数据。ATA 硬盘一直都采用并行 传输模式,线路间的信号会互相干扰,在高速数据传输过程中,影响系统的稳定性。由于串行 传输方式不会遇到信号串扰问题,所以要提高传输速度只需要提高工作频率即可。Serial ATA 只需 4 线电缆。 SATA 采用的是点对点的传输方式,使得用户在使用 SATA 硬盘时不再需要设置硬盘的主 从盘,而直接每个硬盘对应一个数据通道直接连接系统。SATA1.0 的标准规定,硬盘的接口传 输速率为 150MB/s,SATA 可扩展到 2X 和 4X 的规格,相应的传输速率则分别提升至了 300MB/s 和 600MB/s。SATA 硬盘还可以实现热插拔功能,不过目前为止还没有操作系统支持这项功能, 人们还要等到微软的下一代操作系统 Windows Longhorn 面世后才能享受到这项功能带来的便 利。
z
NAS(Network Attached Storage-网络附加存储)
即将存储设备通过标准的网络拓扑结构(例如以太网),连接到一群计算机上。NAS 是部 件级的存储方法,它的重点在于帮助工作组和部门级机构解决迅速增加存储容量的需求。
z
DAS(Direct Attached Storage-直接附加存储)
是指将存储设备通过 SCSI 接口或光纤通道直接连接到一台计算机上。DAS 产品包括存储 器件和集成在一起的简易服务器,可用于实现涉及文件存取及管理的所有功能。
z
SAN(Storage Area Network-存储局域网络)
通过光纤通道连接到一群计算机上。在该网络中提供了多主机连接,但并非通过标准的网 络拓扑。SAN 专注于企业级存储的特有问题,主要用于存储量大的工作环境。
z
Array:阵列
磁盘阵列模式是把几个磁盘的存储空间整合起来,形成一个大的单一连续的存储空间。 RAID 控制器利用它的 SCSI 通道可以把多个磁盘组合成一个磁盘阵列。简单的说,阵列就是由 多个磁盘组成,并行工作的磁盘系统。需要注意的是作为热备用的磁盘是不能添加到阵列中的。
27
z
Array Spanning:阵列跨越
阵列跨越是把 2 个,3 个或 4 个磁盘阵列中的存储空间进行再次整合,形成一个具有单一 连续存储空间的逻辑驱动器的过程。RAID 控制器可以跨越连续的几个阵列,但每个阵列必需 由相同数量的磁盘组成,并且这几个阵列必需具有相同的 RAID 级别。就是说,跨越阵列是对 已经形成了的几个阵列进行再一次的组合,RAID 1,RAID 3 和 RAID 5 跨越阵列后分别形成了 RAID 10,RAID 30 和 RAID 50。
z
Cache Policy:高速缓存策略
RAID 控制器具有两种高速缓存策略,分别为 Cached I/O(缓存 I/O)和 Direct I/O(直接 I/O)。缓存 I/O 总是采用读取和写入策略,读取的时候常常是随意的进行缓存。直接 I/O 在读 取新的数据时总是采用直接从磁盘读出的方法,如果一个数据单元被反复地读取,那么将选择 一种适中的读取策略,并且读取的数据将被缓存起来。只有当读取的数据重复地被访问时,数 据才会进入缓存,而在完全随机读取状态下,是不会有数据进入缓存的。
z
Capacity Expansion:容量扩展
在 RAID 控制器的快速配置工具中,设置虚拟容量选项为可用时,控制器将建立虚拟磁盘 空间,然后卷能通过重构把增加的物理磁盘扩展到虚拟空间中去。重构操作只能在单一阵列中 的唯一逻辑驱动器上才可以运行,你不能在跨越阵列中使用在线扩容。
z
Channel:通道
在两个磁盘控制器之间传送数据和控制信息的电通路。
z
Format:格式化
在物理驱动器(硬盘)的所有数据区上写零的操作过程,格式化是一种纯物理操作,同时 对硬盘介质做一致性检测,并且标记出不可读和坏的扇区。由于大部分硬盘在出厂时已经格式 化过,所以只有在硬盘介质产生错误时才需要进行格式化。
z
Hot Spare:热备用
当一个正在使用的磁盘发生故障后,一个空闲、加电并待机的磁盘将马上代替此故障盘, 此方法就是热备用。热备用磁盘上不存储任何的用户数据,最多可以有 8 个磁盘作为热备用磁
28
盘。一个热备用磁盘可以专属于一个单一的冗余阵列或者它也可以是整个阵列热备用磁盘池中 的一部分。而在某个特定的阵列中,只能有一个热备用磁盘。 当磁盘发生故障时,控制器的固件能自动的用热备用磁盘代替故障磁盘,并通过算法把原 来储存在故障磁盘上的数据重建到热备用磁盘上。数据只能从带有冗余的逻辑驱动器上进行重 建(除了 RAID 0 以外),并且热备用磁盘必须有足够多的容量。系统管理员可以更换发生故 障的磁盘,并把更换后的磁盘指定为新的热备用磁盘。
z
Hot swap Disk Module:热交换磁盘模式
热交换模式允许系统管理员在服务器不断电和不中止网络服务的情况下更换发生故障的 磁盘驱动器。由于所有的供电和电缆连线都集成在服务器的底板上,所以热交换模式可以直接 把磁盘从驱动器笼子的插槽中拔除,操作非常简单。然后把替换的热交换磁盘插入到插槽中即 可。热交换技术仅仅在 RAID 1,3,5,10,30 和 50 的配置情况下才可以工作。
z
I2O(Intelligent Input/Output):智能输入输出
智能输入输出是一种工业标准,输入输出子系统的体系结构完全独立于网络操作系统,并 不需要外部设备的支持。I2O 使用的驱动程序可以分为操作系统服务模块(operating system services module,OSMs)和硬件驱动模块(hardware device modules,HDMs)。
z
Initialization:初始化
在逻辑驱动器的数据区上写零的操作过程,并且生成相应的奇偶位,使逻辑驱动器处于就 绪状态。初始化将删除以前的数据并产生奇偶校验,所以逻辑驱动器在此过程中将一并进行一 致性检测。没有经过初始化的阵列是不能使用的,因为还没有生成奇偶区,阵列会产生一致性 检测错误。
z
IOP(I/O Processor):输入输出处理器
输入输出处理器是 RAID 控制器的指令中心,实现包括命令处理,PCI 和 SCSI 总线的数据 传输,RAID 的处理,磁盘驱动器重建,高速缓存的管理和错误恢复等功能。
z
Logical Drive:逻辑驱动器
29
阵列中的虚拟驱动器,它可以占用一个以上的物理磁盘。逻辑驱动器把阵列或跨越阵列中 的磁盘分割成了连续的存储空间,而这些存储空间分布在阵列中的所有磁盘上。RAID 控制器 能设置最多 8 个不同容量大小的逻辑驱动器,而每个阵列中至少要设置一个逻辑驱动器。输入 输出操作只能在逻辑驱动器处于在线的状态下才运行。
z
Logical Volume:逻辑卷
由逻辑磁盘形成的虚拟盘,也可称为磁盘分区。 z
Mirroring:镜像
冗余的一种类型,一个磁盘上的数据在另一个磁盘上存在一个完全相同的副本即为镜像。 RAID 1 和 RAID 10 使用的就是镜像。Parity:奇偶校验位 在数据存储和传输中,字节中额外增加一个比特位,用来检验错误。它常常是从两个或更 多的原始数据中产生一个冗余数据,冗余数据可以从一个原始数据中进行重建。不过,奇偶校 验数据并不是对原始数据的完全复制。 在 RAID 中,这种方法可以应用到阵列中的所有磁盘驱动器上。奇偶校验位还可以组成专 用的奇偶校验方式,在专用奇偶校验中,奇偶校验数据可分布在系统中所有的磁盘上。如果一 个磁盘发生故障,可以通过其它磁盘上的数据和奇偶校验数据重建出这个故障磁盘上的数据。
z
Snapshot:快照
快照(Snapshot)是静态映像(Frozen Image)的备份技术,是一种保留某一时刻文件系统映像 的技术,其核心是对备份和恢复过程采取“即时”(point-in-time)数据拷贝的方式。Snapshot 可以 很快的产生多个当前数据的快照,这些快照可用于数据备份,数据分析,数据恢复,以及提供 给其它程序数据等。与备份软件系统、镜像软件系统相比,它具有自己的特色:如可以避免大 数据量备份时长时间无法提供服务的问题,可以实现数据的即时恢复,实时数据分析等特有功 能。
z
Power Fail Safeguard:掉电保护
当此项设置为可用时,在重构过程中(非重建),所有的数据将一直保存在磁盘上,直到 重构完成后才删除。这样如果在重构过程中发生掉电,将不会发生数据丢失的危险情况。
30
第三章 3.1
FC 交换机和 SAN 存储与网络
由于计算机技术不断向更便宜,更有效的方向发展,早期的主机式计算机也从大型的中心 式系统演化为便捷的,企业级的服务器。同时,网络技术也对计算机平台的演化产生了相应的 影响。随着这两项技术的逐渐成熟,以及对计算机处理能力和相关数据需求的不断增长,更快, 可达性更好的存储技术将得到更多的市场驱动,存储网络也因此而到来。 在过去的 10 至 15 年中,商业的模式发生了重大的改变。这其中,基于因特网的商业模式 的爆炸性增长给信息的获取和存储技术带来了新的挑战。不断增长的对存储能力的需求使许多 IT 组织不堪重负,因此,发展一种具有成本效益的和可管理的先进存储方式就成为必然。
3.2 3.2.1
存储网络基础 SCSI
SCSI 是连接存储设备与服务器的最通用的方法。SCSI 产生于 1979 年,是支持一到两个磁 盘的 8-bit 的并行总线接口。这一协议不断发展,直至成为其他存储相关技术的基础。今天,串 行 SCSI 成为了存储设备领域里,具有层结构和良好体系结构的协议族。 美国国家信息技术委员会所制定的 T10 标准,也就是 SAM-2,为 SCSI 的实现提供了一个 层次化的模型。这一框架包括 SCSI 驱动器软件,物理互联,命令实现以及存储管理。这些内容 在一起为 SCSI 的互操作性和可扩展性提供了可能。它支持多驱动器类型,排队,多任务,缓存, 自动驱动器 ID 识别,双向接口操作等内容。SCSI-3 命令集将逻辑层转化为基于包的格式,从 而为网络传输提供了可能。目前对串行 SCSI 有多种实现,包括 Fibre Channel, Apple's Firewire, SSA 等。最近又有 iSCSI。 SCSI 标准共提供了三种可能的电气配置: 低成本的单端可选配置,适用于临近设备的连接,距离最大为 6 米; 较昂贵的 HVD,可支持 25 米距离,具有较好的抗噪声性能;
31
最近提出的 LVD,支持 SCSI-3,作用距离可达 12 米。 随着基于因特网的应用的不断增长,不断加速的信息需求使得存储容量的增长速度超过了 服务器处理能力的增长速度。一方面是服务器有限的内部存储极限,另一方面是不断增长的存 储内容,这就要求服务器的存储"外部化",以适应新的应用的要求。然而随着存储容量的不断 增长和服务器的不断发展,在单一的服务器上实现同时对应用环境和存储环境管理就成为了一 项新的挑战。将服务器和存储器分开虽然有助于提高这方面的管理能力,但是 SCSI 的 25 米极 限,以及它的速度和共享能力,还是一个重要问题。
3.2.2
TCP/IP
TCP 协议和 IP 协议共同构成了通信协议族。这组协议是因特网获得成功的主要因素。一方 面它们的扩展性很强,可以实现巨大的网络,另一方面 TCP/IP 也在因特网不同的使用者之间实 现了安全和可靠的信息共享。由于这些特性的存在,使得因特网成为了一个真正的开放性网络, 它可以支持数以百万计的家庭,学校,政府,公司直至世界的遥远角落。由于 TCP/IP 能够支持 大量的网络技术,所以它完全有能力成为全球存储网络的基础。
3.2.3
Ethernet
Ethernet 是今天局域网领域得到最广泛使用的技术。它是 IEEE802.3 标准。最早是 Xerox 公 司所开发。因为它是桌面电脑互联的最佳技术,所以得到 Intel 公司和 Digital 公司的进一步开发。 它的发展经历了 10Mbps 到 100Mbps 再到 1000Mbps 的过程。现在,10Gbps 的 Ethernet 也即将 问世。 10Gbps 的 Ethernet 和 TCP/IP 的组合为存储网络应用的实现提供了引人注目的解决方案。
3.2.4
Fibre Channel
大多数的存储域网络(Storage-Area Networks)都是基于一个叫 Fibre Channel(FC)的体系结构。 FC 的发展是为了解决服务器和存储设备之间通信的诸多要求的。这些要求包括速度,容量,可 靠性等等。目前它能够实现 1Gbps 及 2Gbps 的速率。它可以实现 100MB/sec 半工和 200MB/sec 全工的持续吞吐量。
32
3.3 体系结构基础 3.3.1 直连式存储(Direct Attached Storage) 由于早期的网路十分简单,所以直连式存储得到发展。到了二十世纪八十年代,计算由大 型的集中式系统发展到灵活的客户端服务器分布式模型。正是尚处在初级阶段的局域网推动了 这一转变。连接服务器的存储(Server-Attached Storage)和直连存储类似,但使用的却是分布式的 方法,并仰赖与局域网的连接得以实现。随着计算能力,内存,存储密度和网络带宽的进一步 增长,越来越多的数据被存储在个人计算机和工作站中。分布式的计算和存储的增长对存储技 术提出了更高的要求。 今天,所有的存储操作都要通过 CPU 的 I/O 操作来完成。由于使用 DAS,存储设备与主机 的操作系统紧密相连,其典型的管理结构是基于 SCSI 的并行总线式结构。存储共享是受限的, 原因是存储是直接依附在服务器上的。从另一方面看,系统也因此背上了沉重的负担。因为 CPU 必须同时完成磁盘存取和应用运行的双重任务,所以不利于 CPU 的指令周期的优化。
3.3.2 网络存储设备(Network Attached Storage) 局域网在技术上得以广泛实施,在多个文件服务器之间实现了互联,为实现文件共享而建 立一个统一的框架。随着计算机的激增,大量的不兼容性导致数据的获取日趋复杂。因此采用 广泛使用的局域网加工作站族的方法就对文件共享,互操作性和节约成本有很大的意义。NAS 包括一个特殊的文件服务器和存储。 NAS 服务器上采用优化的文件系统,并且安装有预配置的存储设备。由于 NAS 是连接在局 域网上的,所以客户端可以通过 NAS 系统,与存储设备交互数据。 另外,NAS 直接运行文件系统协议,诸如 NFS,CIFS 等。客户端系统可以通过磁盘映射和 数据源建立虚拟连接。
3.3.3 存储网络(Storage Area Networks) 一个存储网络是一个用在服务器和存储资源之间的,专用的,高性能的网络体系。它为了 实现大量原始数据的传输而进行了专门的优化。因此,可以把 SAN 看成是对 SCSI 协议在长距 离应用上的扩展。
33
SAN 使用的典型协议组是 SCSI 和 Fibre Channel(SCSI-FCP)。Fibre Channel 特别适合这项应 用,原因在于一方面它可以传输大块数据(这点类似于 SCSI),另一方面它能够实现远距离传输 (这点又与 SCSI 不同)。 SAN 的市场主要集中在高端的,企业级的存储应用上。这些应用对于性能,冗余度和可获
图 3-1 网络存储的附加影响 得性都有很高的要求。
3.3.4 SAN 与 NAS 区别和联系 当对 SAN 和 NAS 进行比较时,这两种相互竞争的技术实际上是互补的。SAN 和 NAS 是 在不同用户需求的驱动下的独立事件。SAN 是以数据为中心的,而 NAS 是以网络为中心的。 概括来说,SANs 具有高带宽块状数据传输的优势,而 NAS 则更加适合文件系统级别上的数据 访问。用户可以部署 SAN 运行关键应用,比如数据库、备份等,以进行数据的集中存取与管 理;而 NAS 支持若干客户端之间或者服务器与客户端之间的文件共享,所以用户可使用 NAS 作为日常办公中需要经常交换小文件的地方,比如文件服务器、存储网页等。越来越多的设计 是使用 SAN 的存储系统作为所有数据的集中管理和备份,而需要文件级的共享即 File system I/O 则使用 NAS 的前端(所谓前端,即只有 CPU 及 OS,OS 可以是 windows 或 Unix 的内核或简 化版,不包含盘体装载数据),后端还是会集中到 SAN 的磁盘阵列中采取数据,提供高性能、大 容量的存储设备。
34
NAS 和 SAN 在以下方面提供互补: (1) NAS 产品可以放置在特定的 SAN 网络中,为文件传输提供优化的性能 (2) SAN 可以扩展为包括 IP 和其他非存储关联的网络协议 从总体拥有成本(TCO)方面来分析,DAS 由于单独部署的原因造成了总体拥有成本居高不 下,部署 SAN 可以显著地节 用户的投资成本,而 Cisco 的多层 SAN 更可帮助客户再降低 30 %的总体拥有成本,同时还提升了高可用性、存储虚拟化和复制能力等功能。 存储网络的演化就是基于 DAS,NAS 和 SAN 中最佳要素的融合,从而来满足以因特网为 中心的商业对存储提出的越来越高的要求。
图 3 -2
多种存储技术图示
3.4 TCP/IP,Ethernet 和存储网络相结合的多层环境 3.4.1 iSCSI iSCSI 正是集合了 Ethernet 和 IP 的开放性,NAS 的文件级存取,基于 SAN 的块级存取这 四方面优点的混合产物。随着当今 IP 和 Ethernet 的激增,用户可以采用与构建因特网相同的基 础来支持他们对存储网络的需求。服务器可以在运行 TCP/IP 的以太网卡上安装开放的 iSCSI 驱
35
动,从而能够存取位于 Fibre-channel 上的 SAN 中的数据块。当今的用户可以利用基于 TCP/IP 的 Ethernet 来无限制的扩大他们的存储容量和带宽。iSCSI 正是网络条件下的 SCSI-3 协议。 iSCSI 为满足 IT 专业人员的特殊需求提供多种可能的拓扑。它可以部署为私有的,存储中 心网。通过使用 Ethernet,它还可以增加 IPSec 和防火墙以提高信息的安全。它也可以被设计成 聚合的存储网络,既可以作为私人企业的解决方案也可以在公众网上以 VPN 的形式出现。理论 上说,用户可以构建任何大小的网络以适应各种各样不同的需求,以降低用户在存储网络上的 总体拥有成本(TCO)。
3.4.2 FCIP FCIP(Fibre Channel over IP)是在 TCP/IP 上用管道技术来实现 Fibre Channel 的受推荐标准。 它采用封装技术将 Fibre Channel 协议封装在 IP 包中,以使它能够通过 IP 网。已经拥有 Fibre Channel 网的用户可以通过调节他们已经存在的 SAN 以使它们能够扩展到城域网和广域网。 FCIP 正是这样一种将多个 Fibre Channel 孤岛连接起来的手段。 举个例子,FCIP 可以用来连接地理上分开的 Fibre Channel 存储阵列,并实现数据的同步更 新。这样一旦有数据遭到破坏,系统立即可以通过 FCIP 链路获得远端的热备份数据。这样做的 好处是使数据具有灾难恢复功能,而这一点对于有些商业数据又是必不可少的。
3.4.3 SAN 的应用 存储网络发展的主要推动力来自于它所产生的应用。这些应用在性能上,存储管理上和在 可扩展性上都有一定的能力。下面是其中的一些应用: (1) 数据共享--由于存储设备的中心化,大量的文件服务器可以低成本的存取和共享信息, 而同时也不会使系统性能有明显的下降。 (2) 存储共享--两个或多个服务器可以共享一个存储单元,这个存储单元在物理上可以被分 成多个部分,而每个部分又连接在特定的服务器上。 (3) 数据备份--通常的数据备份都要依赖于共同的局域网或广域网设备。通过使用 SAN,这 些操作可以独立于原来的网络,从而能够提高操作的性能。
36
(4) 灾难恢复--传统上,当灾难发生时,使用的是磁带实现数据恢复。通过使用 SAN,可以 采用多种手段实现数据的自动备份。而且这种备份是热备份形式,也就是说,一旦数据出错, 立即可以获得该数据的镜像内容。
3.4.4 将存储网络拓展到 MAN 这里以 Cisco 完整光多服务边缘和传输(COMET)计划为例。COMET 可以提供一整套全面 的光网解决方案,它们可以利用各种可以支持语音、视频、数据和存储应用的创新技术,将用 户的网络基础设施拓展到 LAN、MAN 和 WAN。 COMET 可以通过一个高速的、低延时的光学基础设施,支持各种存储网络应用,例如灾 难恢复、数据复制、存储整合、存储外包和 SAN 互联。思科的密集波分复用(DWDM)技术可以 在一对光纤上支持 32 个波长,从而可以满足 SAN 和 MAN 的迅速增长的需求。Cisco DWDM 多服务平台可以在一个智能化的光传输基础设施上,集成网络、存储和传统应用。经过认证, 思科的 DWDM 产品可以在主要的存储和管理网络服务环境中进行互操作,并且能够兼容多个 厂商的技术,其中包括 EMC、IBM、HPQ 和 MFN。此外,新一代 SONET 平台可以在城市运 营商网络中为存储应用提供传输服务。
3.5 新一代多层智能化存储网络 多层智能化存储网络可以降低目前要求最严格的存储环境的总体运营成本(TCO)。通过将 业界最强大、最灵活的硬件架构与多层的网络和存储管理智能结合在一起,可以帮助客户建设 高可用的、可扩展的存储网络,并为其提供先进的安全性和统一的管理。多层智能化存储网络 可以提供各种智能化网络功能,例如多协议/多传输集成,虚拟 SAN(VSAN),全面的安全性, 先进的流量管理,完善的诊断功能,以及统一的 SAN 管理。
37
多层智能化存储网络完全是为了实现高可用性而设计的。除了满足用户对于无中断软件升 级和所有关键性硬件组件的冗余的基本需求以外,多层智能化存储网络的软件架构还可以提供
图 3-3 Cisoco 的端到端存储网络方案 前所未有的高可用性。多层智能化存储网络要求 Supervisor 模块具有自动重启发生故障的进程 的独特功能,这使得它变得非常强大。在某个 Supervisor 模块重启时(尽管这种情况很少发生), 在主 Supervisor 模块和备份 Supervisor 模块之间的完全同步可以确保在不中断数据传输的情况 下进行全状态故障恢复。多层智能化存储网络将高可用性提高到了一个新的水平,确保了可以 超过目前要求最严格的 99.999%正常运行时间的超高可用性环境。图 3-3 给出了 Cisco 公司的端 到端网络方案。
3.5.1 单一交换架构存储网络的扩展性 用户可以利用业界最强大、性能最高的 ISL 链路在交换层部署高可用性。端口通道功能让 用户最多可以将 16 条物理链路集成到一个逻辑链路中。这个逻辑链路可以包括设备中的任何端 口,从而确保了在某个端口、ASIC 或者模块发生故障时,该逻辑链路仍然可以继续使用。在任 何一条物理链路发生故障时,该逻辑链路能够继续运行,而不会导致重置。此外,交换结构最
38
短路径优先(FSPF)的多路径功能可以为在 16 个等长的路径上进行负载均衡提供智能,并能在某 个交换机发生故障时动态地重新设置数据传输的路由。
3.5.2 采用 VSAN 技术 多层智能化存储网络在业界首次采用了虚拟 SAN(VSAN)技术。这种技术可以在一个单一的 SAN 结构中创建多个基于硬件的独立环境,从而提高 SAN 的使用效率。每个 VSAN 都可以作 为一个常规的 SAN 进行单独分区,并拥有它自己的交换服务,从而提高可扩展性和恢复能力。 VSAN 不仅可以将 SAN 基础设施的成本分摊得更低,还可以确保数据传输的绝对隔离和安 全,保持对各个 VSAN 的配置的独立控制。
3.5.3 有助于加强投资保护的多协议智能 多层智能化存储网络所特有的交换架构让它可以无缝地集成新的传输协议,以获得最大限 度的灵活性。从光纤通道、iSCSI 和 FCIP 开始,多层智能化存储网络是一个强大的多协议平台, 可以用于部署成本最优化的存储网络。现在,用户可以通过部署 2Gbps 光纤通道使用高性能的 应用,利用基于以太网的 iSCSI 以低廉的成本连接到共享的存储空间,以及用 FCIP 在数据中心 之间建立连接。多层智能化存储网络采用了独特的设计,可以支持未来的存储协议,因而用户 可以无缝地移植到新的技术,同时保留一套统一的功能、服务和管理工具。
3.5.4 全面的安全性 为了满足人们对于在存储网络中实现无懈可击的安全性的需求,多层智能化存储网络针对 所有可能的被攻击点采用了广泛的安全措施。为了防范未经授权的管理访问,多层智能化存储 网络采用了 SSH、RADIUS、SNMPv3 和角色访问控制(Role-based Access Control)等技术。为了 防止攻击威胁到控制流量的安全,多层智能化存储网络还采用了光纤通道安全(FC-SP)协议。 FC-SP 可以在整个交换结构中提供保密性、数据源认证和面向无连接的完整性。多层智能化存 储网络用 VSAN 技术确保了数据传输的安全,以隔离同一交换结构中的不同数据传输,并利用 硬分区和软分区技术来满足 VSAN 中的传输隔离要求。基于硬件的 ACL 可以提供更加精确的 高级安全选项。多层智能化存储网络可以利用思科在保障全球数据网络中最敏感数据的安全方 面所积累的经验,提供业界最安全的存储网络平台。
39
3.5.5 先进的诊断和故障修复工具 多层智能化存储网络的多层智能包括多种先进的网络分析和调试工具。为了在大规模的存 储网络中进行故障管理,多层智能化存储网络利用"FC Traceroute"等命令来获取数据流的详细路 径和时限,并利用交换端口分析工具(SPAN)有效地捕获网络流量。在捕获到流量之后,就可以 利用 Cisco Fabric Analyzer(一种内嵌的光纤通道分析工具)管理流量。此外,多层智能化存储网 络还集成了"Call Home"(自动通报)功能,以提高可靠性,加快解决问题的速度并降低服务成本。 多层智能化存储网络可以为诊断和分析企业的存储网络提供最全面的工具集。
3.5.6 便于管理 要实现存储网络的潜在能力就意味着要提供相应的管理功能。为了满足所有用户的需求, 多层智能化存储网络可以提供三种主要的管理模式:命令行界面(CLI),图形界面 Cisco Fabric Manager,以及与第三方存储管理工具集成。 多层智能化存储网络为用户提供了一个统一的、接近的命令行界面 CLI。CLI 的语法与广 为人知的 Cisco IOS CLI 的语法相同,因而非常便于学习,并可以提供广泛的管理功能。CLI 是 一个非常有效和直接的界面,可以为企业内部的管理员提供优化的功能。 Cisco Fabric Manager 是一个反应迅速的并便于使用的 Java 应用,可以简化对多个交换机和 交换结构的管理。Cisco Fabric Manager 可以帮助管理员执行关键性的任务,例如拓扑发现,结 构配置和验证,设置,监控,以及解决故障等。所有功能都可以通过一个安全的界面获得,从 而让用户可以从任何地点进行远程管理。 Cisco Fabric Manager 可以独立使用,也可以结合第三方管理应用使用。为了集成第三方管 理工具和用户自行开发的管理工具,思科提供了一个范围广泛的 API。
3.6 存储网络的未来发展 在 DAS,SAS(Server Attached Storage),SAN 和 NAS 之间的区别正在变得模糊。所有的技 术在用户的存储需求下接受挑战。传统的客户端服务器的计算模式将会演化成具有任意连接性
40
的全球存储网络。在那种情况下,数据的利用率会得到提高。分布式数据也会得到更加优化的 存储。 和其他领先技术一样,存储网络市场也会得益于 Cisco 所热切推动的现有技术和创新技术 的发展与融合。另一方面,提高了的物理上的连通性,并没有本质上改变在多个服务器之间共 享数据的困难。所以多层智能化存储网络为嵌入各种智能化存储服务(例如基于网络的虚拟化和 复制)提供一个开放的平台。多层智能化存储网络用一种层次化的方式来实现网络和存储智能, 为存储网络的发展开辟了一个新的纪元。 只有采用了存储虚拟化的技术,才能真正屏蔽具体存储设备的物理细节,为用户提供统一
图 3-4 网络存储设施演化 集中的存储管理。采用存储虚拟化技术,用户可以实现存储网络的共用设施目标:
3.6.1 存储管理的自动化与智能化 在虚拟存储环境下,所有的存储资源在逻辑上被映射为一个整体,对用户来说是单一视图 的透明存储,而单个存储设备的容量、速度等物理特性却被屏蔽掉了。无论后台的物理存储是 什么设备,服务器及其应用系统看到的都是客户非常熟悉的存储设备的逻辑映像。系统管理员 不必关心自己的后台存储,只须专注于管理存储空间本身,所有的存储管理操作,如系统升级、
41
改变 RAID 级别、初始化逻辑卷、建立和分配虚拟磁盘、存储空间扩容等比从前的任何存储技 术都更容易,存储管理变得轻松无比。与现有的 SAN 相比,存储管理的复杂性大大降低了。
3.6.2 提高存储效率 主要表现在消除被束缚的容量、整体使用率达到更高的水平。虚拟化存储技术解决了这种 存储空间使用上的浪费,它把系统中各个分散的存储空间整合起来,形成一个连续编址的逻辑 存储空间,突破了单个物理磁盘的容量限制,客户几乎可以 100%地使用磁盘容量,而且由于存 储池扩展时能自动重新分配数据和利用高效的快照技术降低容量需求,从而极大地提高了存储 资源的利用率。
3.6.3 减少总体拥有成本(TCO),增加投资回报(ROI) 由于历史的原因,许多企业不得不面对各种各样的异构环境,包括不同操作平台的服务器 和不同厂商不同型号的存储设备。采用存储虚拟化技术,可以支持物理磁盘空间动态扩展,这 样用户现有的设备不必抛弃,可以融入到系统中来,保障了用户的已有投资;从而降低了用户 TCO,实现了存储容量的动态扩展,增加了用户的 ROI。
3.7 如何建造企业 SAN 系统 寻求从 SAN 中获益的 IT 经理面临多种选择:市场上的光纤信道交换产品种类繁多,作为 一个用户,怎样才能找到建设存储环境的最佳构件呢?最佳构件即是:由它最终建成的基础设 施能给予应用系统充分支持,并能随业务需要灵活扩展。 企业认识到 SAN 的益处后,会要求把越来越多的服务器和存储设备纳入 SAN。同时,对 数据存储和使用需求的惊人增长,也将导致通过 SAN 传递的数量大大增加。企业只有谨慎地选 择 SAN 基础设施,才能确保他们的网络日后方便、经济且灵活地扩展,同时保证性能和数据的 可用性。
42
3.7.1 SAN 应用系统评估 为了能设计出最合适的 SAN 拓扑布局,企业必须准确定义 SAN 将要支持的应用环境。这 是最重要、可能也是最困难的一步,因为全面的评估不仅要考虑到应用系统目前的性质,而且 需要对未来作出预测。 只有基础设施能依照应用系统的动态情况定制,网络才能发挥最大的效益。每个企业的数 据环境都有其特性,以不变应万变的方式不适用于存储网络。通过全面评估操作环境,一个企 业可以找到其挑选交换产品的最佳标准,并依照当前和未来需要定制 SAN 拓扑结构。 如果想从一开始就设计出理想的 SAN 拓扑结构,需要分析所支持的应用系统在数据整合和 灾难恢复等多个方面如何影响整个数据环境。必须要评估的主要属性包括:
z
应用要求
z
数据存储要求
z
备份和灾难恢复战略
z
网络连接要求
z
服务器连接要求
应用要求 宕机冗余——必须确定应用系统现在和未来的宕机冗余,这样就可以根据应用系统的可用 性要求设计相关网络。需要充分估计应用系统的宕机成本和对业务连续性的影响,以便清楚了 解是否需要高可用性解决方案。 性能——必须从数据吞吐量和最大可容许延时方面定义应用系统的性能要求。许多应用系 统对网络延时十分敏感,促进了低延时网络的设计。 增长——由于应用扩展导致的网络增长必须予以充分的估计。需要从几方面估计增长需要, 如用户数量、服务器数量和每应用系统的存储连接数量等。每个因素都要考虑到额外的网络连 接和这些连接的必需性能,并对之进行评估。为新用户(如在线存取供应商和用户)提供应用系 统接入的计划也应列入考虑。新用户的增长会影响要存储的数据量、网络连接的数量和传输额 外数据所需的带宽。
数据存储要求
43
数据位置——了解数据量和数据的位置很关键。数据是放在统一的存储库中,还是分布在 存储小区内?存储据点之间的电缆距离和和服务器连接必需要纳入考虑。长途连接(大于 10 公 里)会有些特别的连接要求,如支持长途连接的 Switch、光纤信号转发器和桥接等。 数据量——需要存取的数据量是决定网络带宽和存储网络连接数量的关键因素。存储阵列 的规模和性能特点将决定支持阵列的必要网络连接数量。此外,每个存储端口支持(扇出比例) 的服务器数量由存储制造商确定,以避免网络堵塞和瓶颈。 数据和存取共享——另一项必须完成的评估是:数据在多长时间内、如何被存取和共享? 在大多数 SAN 应用中,数据通常是在服务器和存储器之间共享,而不是在服务器之间或存储器 之间共享。增加备份、镜像和其它应用系统,会导致任意网络连接增多。
备份和灾难恢复战略 集中式、离网、少服务器备份是促使企业实施 SAN 的主要因素。关于备份如何生成的评估 也是必要的,因为它将决定连接范围和吞吐量大小。集中式备份战略要求设计完备的 SAN。为 了使战略成功,从备份设备到每一个存储设备之间都应该有一条高速、高可用性的数据路径。
网络连接要求 端口计数要求——评估支持现有和未来增长所需网络连接数是十分重要的。如果在部署初 期没有考虑增长因素,事后不断追加网络规模和重新配置会浪费大量资源,并增加宕机时间。 在最初设计中如果没有包括完备的扩展战略,在实际应用中不断扩展的网络会出现传输量不平 衡的现象,并最终影响整个网络的性能和可用性。 网络传输模式——为统一存储而实施的 SAN 与为少服务器备份应用而实施的 SAN 的传输 模式很不同。服务器和存储设备之间的新连接需要考虑额外的端口计量。如果忽略了这一点, SAN 没有为传输量的增长做好准备,当数据在全网范围内传输时,很有可能产生“瓶颈”。 带宽要求——当初步的网络拓扑设计成熟后,网络中应有特定区域支持高带宽功能。例如, 几个只需低带宽的服务器组成的工作组环境可以被集合到一个网络交换连接中。相比之下,存 储和高端服务器需要特别配备的(而且可能是多个)网络连接,以确保所需带宽的可用性。
服务器连接要求
44
每个服务器的 SAN 连接要求需要从带宽、性能和可用性等方面确定,目的是了解每一种连 接在正常和高峰传输环境中的不同要求,这样,不论网络活动有多繁忙,网络连接都能够支持 运行需要。此外,服务器如何摆放(单独还是成组)将决定每个站点的交换端口数量需要。 在网络的主要属性被确定之后,就要评估和选择建造 SAN 的构件了。只需要较小型 SAN 的应用系统,通常用一种 Switch 构成即可,这样实施较为简便。要连接的存储器和服务器较少 (少于 50)时,一到数个 Switch 足以支持环境需要。 如果是支持大型企业应用,就需要多类型 Switch。每种 Switch 在基础设施中承担不同的任 务。有些 Switch 承担到存储库的主要连接,因此需要非常高的可用性。其它 Switch 用于支持服 务器集群的整合,只需要高性能和较少端口数量。 另外,我们设计存储网络系统时,还需要考虑如下几个因素:
z
Switch 类型 广义来说,有三种光纤信道 Switch:Director、网络 Switch 和判优环路 Switch(或称环路
Switch)。企业不能想当然,以为所有厂商的产品都相同。某个厂商的 Director 完全有可能是另 一厂商的网络 Switch。 Director——Director 是一个多端口、高带宽网络 Switch,用于提供最高的可用性。Director 中某个部件的失灵不会影响正常应用,对 SAN 性能和可用性都无影响。Director 有全冗余、热 插拔部件(电源、冷却、处理器和交换部件),能将宕机时间最小化。此外,Director 支持在线错 误探查、隔离、修理和恢复。 Director 提供 99.999%的可用性,或每年少于 5 分钟的宕机时间。Director 的高端口数和无 堵塞结构使它能提供高性能带宽,允许所有端口同时交流,并能保持性能不变,没有额外延时。 Director 主要用于下列应用系统中: 不允许宕机的关键任务系统 企业 SAN 骨干网,是自身的关键任务资源,提供永远畅通的数据传输路径 应用密集型系统,必须保证任意端口间的高带宽通信 一个 Director 结构包括内置冗余,即使部件失灵,也能确保数据流的连续性。 网络 Switch:网络 Switch 用于在 Switch 所有端口间高速传输数据,不受任何干扰和阻碍。 与 Director 类似,网络 Switch 定义一条通过其它 Switch 的数据传输路径,“编织”Switch 构成
45
的网路,这些网路对连接设备来说是透明的。这种 Switch 是一大类,各个厂商的产品及其属性 (冗余、端口数目等)有很大不同。McDATA 提供的 16 和 32 端口网络 Switch 包含冗余电源和冷 却功能。单个网络 Switch 提供 99.9%的可用性——年平均宕机时间 8.8 小时。网络 Switch 通常 担任小型 SAN 中的骨干“承重墙”,在较大的企业 SAN 中,它可作为整合点。 网络 Switch 主要用于下列应用系统中: 部门级连接 分布式存储占主导地位的应用 小型 SAN 的标准构件 环路 Switch:判优环路(FC-AL)Switch 的连接成本最低,适用于低带宽设备,并支持磁带等 传统判优环路设备。环路 Switch 自身不能构成完整网络,它们是用于扩展原有网络的连接设备。 McDATA 的 ES-1000 环路 Switch 的独特之处在于它包含一个内置的网络端口。这样,它只需一 个专用连接设备与网络 Switch 相连,就能很方便地被纳入较大的 SAN。大多数环路 Switch 支 持环路内端口之间的同步全速数据传输。但是,如果出现多个连接争抢一个端口的情况,环路 内就会出现竞争。由于这个问题,大多数环路 Switch 都保持较少的端口数量(8),将带宽竞争控 制在最小程度。 环路 Switch 主要用于下列应用系统中: 适用于低带宽设备的低成本网络连接 NT 服务器整合 磁带整合 交换网络和传统环路的连接
z
不同类型 Switch 对比 不同类型 Switch 在可用性、性能、可扩展性和成本等方面均有不同。下面就这些方面做一
些对比。对比证明没有一种 Switch 可以在所有应用中都有最佳表现。每种 Switch 都有独特的功 能特性。因此,它们分别适用不同的应用。 可用性——可用性用于衡量 Switch 正常运行时间,也用于衡量满足应用系统和基础网络需 要的能力。由于 SAN 提供用户(或应用系统)和信息间的唯一存取路径,因此每条路径的可用性 至关重要。
46
Switch 的可用性是以正常运行时间所占百分比来表示的,数值通常在每年 99%(宕机时间 3.6 天)到 99.999%(宕机时间少于 5 分钟)之间。高可用性网络由 Director 和冗余网络 Switch 支持 ——购买哪种 Switch 可以很容易地通过计算宕机成本和随之导致的业务损失来衡量。 Director—单一 Director 提供的可用性最高,达 99.999%。如果有全冗余部件,一次故障不 会造成任何连接损失。所有部件均可热插拔,因此替换起来非常方便、迅速。不同 Director 端 口插板通常采用双路径服务器和存储连接,以便将连接可用性最大化。 网络 Switch——单一网络 Switch 的可用性最高可达 99.9%(年平均宕机时间 8.8 小时),取决 于不同厂商的功能设置。有些部件故障是可以在线排除的,例如替换风扇或电源。 其它部件故障可能导致 Switch 下线、中断连接或需要替换。替换一台 Switch 至少需要 1 小时。所有主机和存储设备均通过双路径连接到冗余网络 Switch 后,网络 Switch 组成的网络可 用性可以高达 99.99%(年宕机时间少于 53 分钟)。不过要求各主机都安装路径恢复软件。由于配 置不同,一台 Switch 出现故障,仍然可能造成性能问题,如网络瓶颈增多和延时。为保持 99.99% 的可用性,现场需要一台备用 Switch,这样如果主 Switch 出现故障,宕机时间可以缩短到最短。 环路 Switch——如果附带冗余电源和冷却装置,单一环路 Switch 的可用性最高可达 99.9%(年平均宕机时间 8.8 小时)。这些产品主要用于工作组区域连接。如果将所有设备双路径 连接到冗余环路 Switch,环路 Switch 的可用性可达到 99.99%。 确定业务所需最低可用性是正确选择产品的重要基础。在有些环境中,可用性是最重要的 目标,因此选用高可用性 Director 物有所值。其它环境对可用性的要求没有这么高。对于工作 组和部门级办公应用来说,一定时间的宕机是可以容忍的,所以网络 Switch 和环路 Switch 已能 够满足需要。 性能—无论是只安装一台 Switch,还是要建立完整网络,这个问题都不能回避。Switch 的 性能特性取决于 Switch 的结构。结构性能实际上取决于整体网络设计和网络内的传输模式。 Director 和网络 Switch—单一 Director 或 Switch 的性能取决于其结构。大多数 Director 和网 络 Switch(如 McDATA 的产品)都提供高性能、所有端口上任意设备的连接——不论 Switch 上别 处的传输情况如何,都能保证每个端口的完美性能表现。但是,市场上也有一些产品提供高端 口数量,但不提供高性能的任意连接。这类产品实际上是一些小 Switch 的集合,它们相互连接 起来,象一个大 Switch 的样子。
47
环路 Switch——Switch 上的各个端口分享带宽,而所有端口都通过一个通用连接反向连入 整体网络。这种 Switch 提供低成本、低带宽的连接。对于不需要高性能的应用,或者没有 I/O 功能,因而不能高速运行的主机,这是一个不错的选择。 当多个 Switch 连接起来构成一个大网络后,性能评估变得更加复杂,因为 Switch 间的链接 (ISL)很容易成为网络瓶颈,即堵塞。当一个链接上用户过多,就会导致性能下降和延时(从源点 往目的地发送信息所需时间)加长。由于许多需要存取数据的应用系统对延时非常敏感,堵塞就 成为一个需要解决的重要问题。 必须采取措施确保所有设备在所有潜在数据传输路径上反向通讯时不受带宽限制,甚至在 部件发生故障时也不会受到影响。必须审慎确定 ISL 数量,确保它们不会成为瓶颈。还需进一 步考虑,某一部件发生故障后,正常运行的连接势必承担更多的传输量,在这种情况下,SAN 会受到什么影响。 为了充分发挥网络作用,尽量减少 ISL 数量非常重要。减少 ISL 的最好办法是在 SAN 中采 用端口数量多的 Director 和 Switch,由于所有端口都可进行任意设备无障碍通信,因此可以减 少 Switch 的数目。在设计阶段,企业必须将预计的 SAN 规模(用户端口数)与 Switch 规模相匹 配。 例如,一个预计有 64 个用户端口的 SAN 可以采用 16/24/32 或 64 端口的 Switch 作为构件。 但是如果采用 16 端口 Switch 建设 SAN,其性能和未来的扩展能力都不理想。可用性最高、性 能最好的解决方案是单一 64 端口 Director。 扩展性——扩展性指的是 SAN 能以对业务损害最小的方式增大规模。Director 和网络 Switch 都支持网络连接,并可通过增加 Switch 扩展网络。在原有 SAN 设计中就考虑进增长因素,并 将需增加的 Switch 数量控制在最少是提高可扩展性的关键。这之所以成其问题是因为当 Switch 一台台被加进网络时,新 Switch 上的端口以及原有 Switch 上的端口必须重新分配到 Switch 的 多个链路上。如果加进网络的是端口数量少的 Switch,就意味着要不断添加新的 Switch,势必 降低网络中可用端口的数量。 Director——由于采用的是底盘式设计,因此 Director 比较独特。企业可以购买只带有部分 端口插板的 Director,然后随业务增长逐渐加大容量,同时不影响正常运作。此外,由于 Director 的端口较多,不需要频繁增加新的 Switch。 网络 Switch——在网络 Switch 中,所有端口都被固定在一块母板上,所以不能分开购买, 尽管企业一开始可能用不了那么多端口。与 Director 一样,端口数越多,为系统扩展而增加 Switch 的频率就越低。
48
环路 Switch——在单一环路 Switch 中,增加端口会降低其它所有端口的性能,因为环路 Switch 中所有端口共享带宽。尽管光纤信道环路最多可容纳 126 个环路连接,能保证正常性能 的实际连接数要小得多。通常,每个端口只负责一个节点。因此要扩展系统就需增加新的环路 Switch。每台新的环路 Switch 都需要额外占用一个 Director 或网络 Switch 端口。 成本——所有网络基础设施的采购,成本都是最重要的考虑因素。不同 Switch 具有不同功 能和不同成本。必须在网络层就进行初步成本估算,因为 SAN 的整体拥有成本(TCO)是最重要 的衡量尺度,相比之下,特定 Switch 的费用是微不足道的。SAN 的管理成本也必须考虑到。由 端口少的 Switch 组成的大型网络的管理成本要高于由多端口 Director 和 Switch 组成的小型网络 的管理成本。 不同型号 Switch 的区别就在于每端口的价格。其实,只要运行环境合适,每种 Switch 都能 提供低成本连接。例如,比起网络型 Switch 结构,Director 在大型高可用性网络中的运行成本 更低廉。相反,在较小的部门环境,16 端口或 32 端口的网络 Switch 就已足够。 Director——由于 Director 支持 99.999%可用性,所以其端口成本较其他 Switch 高。另外, Director 的端口比网络和环路 Switch 多,其总成本也高于其他 Switch。 网络 Switch——网络 Switch 的成本根据产品性能设置和端口数量不同而有很大的区别。拥 有冗余电源和冷却性能的网络 Switch,每端口价格比没有这些性能的 Switch 要高得多。 环路 Switch——此类 Switch 连接成本最低,是网络 Switch 的一半。如上所述,每端口成本 降低,其连接性能更低。 不同性能和规模的 SAN,交换总成本差别很大。由于每多出一个 ISL 就需要两个端口,所 以 ISL 使用得越多,用于节点连接的端口就越少。网络扩展的同时,可用端口比例也降低,这 种情况常常发生在 Switch 端口较少的网络里,因为 ISL 占去了较大比例的端口容量。
3.7.2 企业存储网络系统管理 评估不同 SAN 交换机都要考虑管理问题。需要对管理能力进行 SAN 交换机和网络级两级 评估。在多种 SAN 设备环境中,仅对 SAN 交换机作个别评估,而忽略它们在网络中的互连, 以及它们是否支持强大的网络管理模式,这种评估是毫无意义的。随着网络的不断扩展,管理 重点从 Switch 转移到网络,管理问题变得重要起来。 SAN 交换机管理侧重 Switch 配置和流量监控。该功能有助于用户评估端口的应用情况和 Switch 的总容量。
49
网络管理则侧重于全网运行,而非某个 Switch。为此,网络管理需要从每个 Switch 中获取 详尽信息,以评估整个网络运行状况。 网络故障隔离和恢复也是网络管理的重点。网络管理员在发现和确定网络问题基本成因上 花费的时间,往往比恢复和修补的时间更多。使用 McDATA 公司网络连接管理(EFCM)软件, 各种类型的 McDATA Switch 可以集中管理,单点控制,大大简化了监控和故障排除。 因为利用单个网络管理应用程序管理不同供应商 Switch 是相当复杂的,所以必须考虑到供 应商产品的特点,结果是:多供应商网络中,用户要管理异构 SAN,要使用多种管理工具,导 致管理变得更加复杂,成本也更高。
3.8 小结:全面集成 企业 SAN 的建设首先需要全面评估 SAN 即将支持的应用系统。定义网络主要属性后,根 据应用,度身制作 SAN。当一个基本网络拓扑结构形成后,其中的每个区域的可用性、性能、 可扩展性和成本需求都可以被检测到。 企业根据上述信息,选择适当的 Switch 构件,每种类型 Switch 都将在网络中发挥特定作用。 Director 在关键任务环境中运行,以保证可用信息的连续性。作为 SAN 的关键构件,Director 提供性能优异的任意设备连接,同时作为企业存储库的中心存取点。 网络 Switch 不仅为部门和作为 SAN 一部分的工作组提供灵活的构件,还是 Director 主干上 的汇聚点。由于各种网络 Switch 端口数目各不相同(McDATA 提供 8 端口、16 端口 24 端口和 32 端口模式),因此可以选择最适合自身连接环境的网络构件。 对于不能使用网络 Switch 端口所有带宽的网络设备,环路 Switch 提供低成本网络构件,或 支持唯一判优环路连接。 网络初始设计选用最合适的 Switch 网络构件,以支持设计性能和可用性目标。另外,网络 必须能够随着业务的需要而扩容,并且无需升级现有基础设施,也不必遭受宕机之苦。 在设计阶段,企业必须创建一个网络拓扑,将“信息孤岛”带来的负面影响最小化。“信 息孤岛”给网络增添了延时和阻塞点,增加了网络的复杂性,降低了网络的性能和可用性。 企业还需考虑每种产品管理工具的选择标准。Switch 和网络管理的有效性对管理更大构件 具有关键作用。所选管理工具应该允许用户通过一个中心点监控整个网络。此外,它还应帮助 客户从整体上优化网络的可用性和性能,而不是只能管理网络内部的单个 Switch。
50
第四章
备份带库
4.1 磁带库基础 一个简单的问题: 用户的数据最终存在哪里? 有人认为是磁盘,有人认为是光盘,当然更多人则认为是磁带。的确如此,世界上所有数 据最终会有超过 90%存储在磁带上。而产生这些数据磁带并管理它们的正是磁带库。 尽管有人认为磁带库在进行数据存储时有过多的机械操作,因而带来了故障隐患,磁带性 能上也存在劣势,在最近一段时期更是受到了磁盘备份的巨大冲击,但是,磁带存储还是由于 其本身固有的特质确保青春不老。 早期的磁带库主要用于离线存储,但随着市场应用环境的变化及新数据存储的需求,磁带 库逐渐成为存储领域最重要的设备之一。磁带库凭借可靠的数据存储能力及海量的备份能力, 从早期独立的备份设备成长为存储备份的主力。磁带库自动、高速备份和恢复 SAN 和 NAS 磁 盘阵列中数据的作用已不可替代。对于海量多媒体数据的应用环境,现代磁带技术在多媒体数 据归档、长期保存应用环境中的可靠性、成熟度和性价比已经得到公认。 1.磁带库的机械手 机械手是磁带库中的核心部件,是决定磁带库性能、稳定性的关键,也是磁带库中最昂贵 的部件之一。各厂商在机械手的设计上各有千秋,其中 StorageTek 公司采用获得专利的圆柱设 计,极具特色,在减少机械手移动距离、提高磁带库总体性能的同时提高了整个磁带库系统的 可靠性。其他大多数厂商采用的则是 X 轴-Y 轴的方式。 2.磁带库分区 所谓磁带库分区就是将磁带库中的磁带驱动器和插槽分配给不同的平台,这些驱动器及插 槽只能被分配的主机使用。但机械臂可以控制所有的驱动器及插槽,并被所有的主机控制。控 制顺序遵循先来先控制的原则。磁带库分区的前提条件是此磁带机是多通道结构。 3.磁带库连接
51
当一个磁带库的容量、性能达不到用户的需求时,可以将数个甚至数十个磁带库连接起来, 从而可以形成一个超大规模的磁带库系统。一个磁带库中的磁带可以自动地传送给其他的磁带 库,在磁带库之间进行磁带交换时需要使用机械装置来完成。 4.广泛兼容的连接性 广泛的连接方式可以使得磁带库能够灵活地应用于各类存储环境,磁带库一般支持 SCSI、 FC 交换网络和 FC 环路网络,今后还将支持以千兆以太网为基础的 iSCSI 等存储网络协议,以 及类似 InfiniBand 等新兴存储总线技术。 5.多类型磁带机支持 毫无疑问,磁带机是磁带库中最核心、最关键的部件,经过数十年的发展,如今的磁带机 技术各具特点,为用户的不同存储需求提供了不同的选择。 大型机自动磁带库一般采用专有磁带技术(STK9840、9940、IBM3590、3592 等),然而, 在大型机磁带库中有时也会出现混装多厂商磁带机的情况。目前,开放系统磁带库大都能够同 时支持主流磁带机技术(DLT?D 数字线性磁带、LTO?D 线性磁带开放协议、DAT?D 数字影像 磁带及 AIT?D 先进智能磁带等),并且可以在同一个磁带库中进行混装。 6.海纳百川的容量 一个磁带库的总容量大小是由最大槽数和每盘磁带容量共同决定的(非压缩总容量=每盘 磁带非压缩容量×最大槽数)。通常,磁带库按照容量大小分成三个级别:初级、中级和高级。 其中,初级磁带库的容量在几百 GB 至几 TB,中级磁带库的容量在几 TB 至几十 TB,而高级 磁带库的容量在几十 TB 至几百 TB 甚至更高。当然这只是较为粗略的划分,随着磁带技术的发 展,尤其是每盘磁带存储容量的逐渐攀升,磁带库容量也会相应发生变化。 7.稳步提高的性能 由磁带机与磁带库共同决定,包括机械手的磁带装载时间以及磁带机性能。随着磁带机技 术的不断发展,磁带传输速率得到很大提升,磁带库厂商对机械手的不断改进缩小了磁带的平 均装载时间,再加上与存储软件的更好配合,所有这些都使得磁带库性能稳步提高。 8.逐渐进步的可靠性
52
图 4-1 磁带库备份原理 硬件冗余技术充分应用到了磁带库中,包括冗余电源、冗余风扇等,从去年开始,有些厂 商为了获得更高的可靠性而采用了冗余的机械手设计。 另外,多磁带机之间可以做冗余,RAIT(Redundant Array of Inexpensive Tape)是相对硬盘的 RAID 而来,它主要是将多个相同的磁带机做成一个阵列,一方面可以提高备份的性能,另一 方面又可以提高磁带的容错性。
图 4-2 各种磁带库技术特点
9.磁带库的分类 从应用的角度,磁带库大体上可以分为两类:大型机自动磁带库和开放系统磁带库。前者 使用专有技术的磁带机,后者大多使用开放式磁带机,也有为了提高整体磁带库性能而采用专 有技术磁带机和开放式磁带机混装的情况。 大型机磁带库之间与其服务的大型机直接连接,而开放系统磁带库既可以直接与服务器连 接,也可以连接到存储区域网(SAN)之中。在一个典型的 SAN 中,磁带库是必不可少的设备, 如下图(图 4-3 )所示。
53
4.2 磁带库的发展 磁带库之所以能够长盛不衰,不断的发展与进步是其中的关键。 曾经很长一段时间,磁带库就是多个磁带机的物理集合,许多工作都需要人工的干预,因 此当时磁带库只能作为离线设备,它的发展也受到了极大的限制。在上个世纪 80 年代,磁带库 的发展获得了巨大进步,各种管理功能的集成使得磁带库真正发展成为能够完成关键任务的近 线存储,磁带库也受到了前所未有的重视。 又经过近二十年的发展,如今,磁带库在存储领域的地位已经举足轻重。仅在去年一年,
图 4-3 一个典型存储网络 磁带库领域就产生了许多令人欣喜的变化,相信这些变化会给磁带库带来一个充满希望的明天。 1.虚拟磁带库 近期出现了一种改变磁带存储系统的技术?D 虚拟带库。虚拟带库将磁盘空间模拟成磁带, 在传统的磁带备份系统中,数据直接从应用系统传输到磁带中,使用虚拟带库以后,数据首先 备份到虚拟带库即磁盘中,然后由虚拟带库再备份到磁带上。对于应用系统来说,就像直接备 份到磁带一样。 将虚拟磁带库集成到现有的磁带库系统中具有很多优势。首先,由于它利用了基于硬盘的 技术,因此每一位担心不能在维护窗口时间内完成备份的人都有喜欢它的理由。其次,任何一 位拥有备份和恢复软件巨额投资的经理,无需改变已有的处理过程就可以使用这种速度更快的
54
技术。此外,由于备份数据可以在任何时间从虚拟磁带传送到物理磁带媒介,因此,空出了虚 拟硬盘供下一轮备份。 2.磁带库的智能化 在关于未来磁带库产品的发展趋势时,许多分析人士都认为,磁带库将变得更智能。所谓 磁带库的智能化就是充分发挥软件的功能,加强磁带库的管理以及连接性能,使得数据备份更 安全更可靠。智能化是分层次的,并不是硬件设备的完全自动化。比如,ADIC 所倡导的智能 化是基于存储硬件设备的,将以前用软件实现的某些功能转移到硬件上来,从而减轻用户应用 系统管理数据的负担。智能化的磁带库具有按需提供容量的功能,用户根据业务增长的需要可 随时扩充容量,而只要使用软件密钥激活即可。而智能存储对于用户意味着更低的总体拥有成 本、更高的性能、更高的可靠性、更加简便的管理和无缝的互操作性。 3.WORM:将来的必选件 现在,不仅磁盘阵列厂商开始将 WORM(Write Once Read Many)技术作为新产品的卖点, 磁带厂商也开始将目光投向 WORM。Sony 公司在 2003 年 12 月发布的 SAIT 磁带机中,已经提 供了 WORM 功能,IBM 发布 3592 磁带机时也声称将在 2004 年提供 WORM 功能。 所有这些都使得磁带库在广阔的固定内容存储领域占有了一席之地。未来,WORM 功能也 许会成为磁带库设备的必备功能。 4.iSCSI 分析机构 Linley 近期对网络存储市场进行调查研究后指出,光纤通道在 2007 年将被基于其 主要竞争技术 iSCSI 的 IP SAN 超过。iSCSI 旺盛的生命力可见一斑。 对于具有如此美好前途的新技术,磁带库当然不会拒绝。早在 2003 年四月份 Spectra Logic 就推出了支持 iSCSI 的磁带库,如今有越来越多的磁带库厂商都支持 iSCSI。
4.3 磁带库评估 如前文所述,磁带库主要分为大型机磁带库和开放系统磁带库。对于大型机磁带库系统而 言,一方面可供用户选择的方案并不是很多,另一方面需要针对用户大型机系统的实际情况进 行考虑。由于大型机磁带库定位于关键业务,用户对价格方面并不是特别敏感,而性能则成为 重要的考虑因素。 下面主要讨论的开放系统磁带库系统。
55
对于开放系统磁带库而言,用户要进行比较全面的考虑,包括大负载备份、最大的不停顿 运行时间、最小的人工干预、可升级性、可恢复性以及可扩展性、服务能力等诸多方面。 升级及兼容性问题 用户在选购磁带库时应考虑未来几年数据量大幅增长的趋势。据有关专 家预测,在未来的三年中,数据量将可能增加五倍。因此,用户在选购时应特别注意选择技术 有发展前途的产品,即容量增大,速度更快,而且最重要的是要与过去和未来的产品兼容。随 着备份需要的增长轻松地调整磁带槽和驱动器的数量。 部件产品寿命 寿命越长的产品客户的使用成本越低。就磁带库产品而言,其重要部件?D?D 驱动器及磁带的寿命都很关键。磁带机的寿命以磁头为主,现有磁头的寿命在 1 万-3 万小时之 间。而磁带的寿命以磁带经过磁头的次数计算,目前磁带的寿命在 5000~1000000 次之间。 磁带机性能能否充分发挥 这种特性应具有数据缓冲功能,可以预先向 FC 主机后存储设备 发送数据传输请求,保证稳定的数据流输入到磁带机中,使磁带机保持连续、不停顿的读写操 作。这个特点不仅可以提高数据备份性能,而且由于减少磁带启动、停止次数、减轻了磁头和 磁带的磨损,从而提高磁带机磁头和磁带本身的寿命。 数据链路调节功能 该特性可以主动发送 SAN 网络探测信号,了解在进行大规模数据备份 前,在主机、磁盘和磁带库之间的 SAN 网络路径是否畅通。如果有任何意外(如 SAN 网络重 新配置、网线中断等),则可以及时通知管理员解决问题,保证数据备份的正常进行。
4.4 磁带库是存储的基础 高楼大厦是否坚固是由埋入地下的基础决定的,而在存储领域里,磁带库就起着类似“地基” 的作用。 许多负责存储的 IT 经理讲,经过多年的发展,如今的磁带库可以满足用户许多基本的存储 需求:首先可以对大量数据进行备份和归档,在灾难发生时还可以进行恢复;对于性能要求不 是特别严格的大多数用户来说,磁带库的近线存储能力基本能够满足业务上的需求。 因此,每个用户都应该注重磁带存储,比如,如何使磁带库系统更好地与业务系统配合, 如何确定更为科学的备份策略等,都需要在长时间的实践工作中摸索,以达到更好的存储效果。 良好的存储管理不是仅仅通过应用先进的技术与产品就能够轻易获得的。 磁带库的更新换代时间较长,而且一旦使用一种技术的磁带,经过长时期的积累会得到数 量巨大的数据磁带,万一这种技术被淘汰,处理这些数据或者向新型技术的数据迁移是一项非
56
常复杂的任务。所以,用户在购买磁带库时要目光长远一些。而在市场上,技术的更新换代、 持续发展能力都对磁带存储厂商至关重要。 备份是存储的基础,把这个基础工作做好就能够为业务发展提供坚实的保障,在此基础之 上才能够做好构建更多与用户新业务联系密切的高端存储,才能够为用户带来更大价值。 希望用户把磁带存储这个基础打好,打牢。
57
第二部分
高级知识:数据系统整合
第五章 数据分级存储 数据分级存储,是指数据客体存放在不同级别的存储设备(磁盘、磁盘阵列、光盘库、磁 带库)中,通过分级存储管理软件实现数据客体在存储设备之间的自动迁移。数据迁移的规则 是可以人为控制的,通常是根据数据的访问频率、保留时间、容量、性能要求等因素确定的最 佳存储策略。在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的 信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。 数据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存 储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的总体 性价比。
5.1 分级存储的必要性 IT 企业总是要面对增长起来无休无止的数据量。各种应用都在创建越来越大的文件。用户 也很少删除数据和存档,这就导致要访问旧一些的文件已经变得非常困难。因此,目前的潮流 是购买更多的软件。然而,这种解决方案产生了非常复杂和笨拙的存储环境,不仅需要更多的 维护和管理,而且需要更多的金钱来维持。 事实上,数据具有生命周期,不同的时期有其存在的不同意义。在数据刚生成的数日内, 访问频率最高,为企业产生效益和收入,带来的价值也最高;随着时间的推移,访问频率降低, 数据的价值也随之下降,低访问频率的数据量远远超过高访问频率的数据量,如果全部用企业 级存储产品来存储所有数据,费用非常高,也没有必要。不同生命周期的数据,由于提供给企 业不同的服务目的,企业应考虑如何以最低的成本获得最高的价值,而不是采用以往单纯的" 购买更多磁盘"的解决方式和态度,徒增存储费用和管理复杂程度。 总之,企业业务数据从产生到存储、利用、归档,最后超过存储期限被删除,数据被读取 的频率会逐渐下降,数据存储的位置也应该随之变化,以提高存储设备的使用率,降低存储成
58
本。因此有必要进行分级存储,企业在存储其关键业务数据时,采用昂贵的存储技术和方式, 如 RAID 磁盘、复制、定时拷贝、多级备份等,确保数据高可用;当数据已经不再为企业带来 效益时,将这类数据迁移到较便宜的存储介质上;最后,当数据"老化"到不再被访问时,应考 虑将其删除或者迁移,如果是法律要求或政府规定等要保留多年的数据,应将其迁移到近线磁 带库或者离线存储介质上进行归档,既安全又节省费用。 同时,信息量的急剧增长,也使存储管理复杂性增加,数据的分级存储也是简化存储管理 的需要。通过设定优化的数据迁移规则,能使重要数据和常用数据在最短的时间内访问到,使 极少使用的数据备份在廉价的海量存储器中。
5.2 分级存储的优点 数据分级存储之所以重要,是因为它既能最大限度地满足用户需求,又可使存储成本最小 化。数据分级存储的优点具体表现在: 1.减少总体存储成本 不经常访问的数据驻留在较低成本的存储器中,可综合发挥磁盘驱动器的性能优势与磁带 的成本优势。 2.性能优化 分级存储可使不同性价比的存储设备发挥最大的综合效益。 3.改善数据可用性 分级存储把很少使用的历史数据迁移到辅助存储器中,或归档到离线存储池中,这样就无 需反复保存,减少了存储的时间;同时提高了在线数据的可用性,使磁盘的可用空间维持在系 统要求的水平上。 4.数据迁移对应用透明 进行分级存储后,数据移动到另外的存储器时,应用程序不需要改变,使数据迁移对应用 透明。
59
5.3
分级存储的存储方式 传统的数据存储一般分为在线(On-line)存储及离线(Off-line)存储两级存储方式。所谓在线存
储就是指将数据存放在磁盘系统上,而离线则是指将数据备份到磁带上。但随着数据量的猛增, 这种只使用在线和离线两级存储的策略已经不能适应企业的需求。近线存储市场近来成为热点, 出现了一些存取速度和价格介于高速磁盘与磁带之间的低端磁盘设备,作为近线存储设备。
5.3.1 在线存储 总体上讲,在线存储多采用高速磁盘阵列等存储设备,存取速度快,当然价格昂贵。在线 存储一般采用高端存储系统和技术如:SAN、点对点直连技术、S2A 等。高端存储系统具有一 些"高端"属性,比如,高容量、高性能、高可用性、冗余性等,现在存储工程师看到,这些特 点已经不再是高端特有的了,许多中端产品也大都采取了这些设计。 SAN 技术的高性能依赖于三个重要领域的性能支持:存储容量、计算能力和传输能力。在 传统 SAN 存储系统中,存储容量这一环节由于存储介质技术的快速发展已经得到了很好的解 决。存储容量通过多磁盘容量的叠加已经能够达到数千 TB 的水平。而在计算能力与传输能力 两个环节上,传统 SAN 却存在很多先天的弱点。最近在高端存储领域出现了两种新技术--点对 点直连技术与并行存储技术。具体如下: 点对点直连技术是 EMC 近期推出的一种全新的点到点互联架构,在性能方面,由于它采 用了点对点对接,消除了总线或交换机方式造成的延迟,专用的数据通道意味着不会出现交换 机竞争的情况,减少数据从存储位置传输到目标位置的延迟。它还具有 32 个独立高速缓存区, 而且每个高速缓存区都具有独立的逻辑访问,可以为用户提供更强大的处理和访问能力。 S2A 是 DataDirect Networks 公司推出的并行存储技术。S2A 没有采用传统的光纤通道交换 机的交叉矩阵交换机制,它所采用的高度并行端口技术消除了交换机制所带来的不可避免的时 间延迟,能够持续不变地提供充满端口带宽的数据吞吐量。S2A 控制器内部的四个主机通道之 间采用虚拟的并行体系结构,通过提供并行处理和并行数据读写的途径,使得在多主机的存储 区域网络环境中具有非常高的不受多主机环境影响的使用性能。
5.3.2 离线存储 离线存储采用磁带作为存储介质,其访问速度低,但能实现海量存储,同时价格低廉。
60
以前用户有这样的想法:反正数据存放在磁带上面,性能都不高,只要在灾难发生时能够 使用它们将需要的数据恢复回来就可以了。其实,这是很不正确的。要知道,用户的数据越来 越多,原有的数据也不能丢弃,当这些数据逐年累积以后管理它们就成了一件十分困难的事情, 而且还要进行磁带定期维护的工作。 因此,许多磁带库厂商在这方面进行了加强,提供了完整的数据生命周期管理,专为数据 密集型 SAN 环境而设计,尤其适用于高强度、大容量的数据访问和数据存储,减少了管理 SAN 数据的时间和成本,从数据生成到其生命周期结束,其中的每一步骤都提供了相应的功能。这 也说明磁带库管理更注重"智能"。
5.3.3 近线存储 随着用户需求的日益细分,人们越来越发现原有的两级模式(在线与离线)已经不能很好 地满足用户的存储需求,在这两个"极端"之间有大量的空白,于是就产生了近线存储的概念。 近线存储的概念一产生就得到了厂商与用户的赞同,定位于此领域的产品很快就纷纷出现,形 成了近一时期最为活跃的中间层。 NetApp 推出的 R100 近线存储设备,获得巨大成功,仅 1 年时间在全球就拥有了 100 多个 用户,总部署容量超过 3PB。 Quantum 推出的基于磁盘的产品 DX30,能够模拟各类磁带库,保留了与存储管理软件的 兼容性,而又具有比磁带库更高的速度,用户可以先将数据备份到 DX30 中,然后再转移到磁 带上。 以磁带产品知名的 StorageTek 公司在业界较早提出了数据生命周期管理的概念,并拥有针 对数据的不同生命周期提供的相应的解决方案,包括磁带设备和磁盘系统及软件产品,以帮助 用户"将适当的数据,在适当的时间,存储到适当的设备上"。 Legato 公司备份软件的最新版 NetWorker7.0,引入了磁盘备份与磁带备份相结合的新方式, 通过磁盘备份可以为用户提供更多性能优势。采用磁盘进行备份避免了一些磁带备份的弊端: 磁带只能进行顺序读写,而且每盘磁带都需要完全倒回才可取出,加载卸载时间很长。磁盘备 份解决方案还完全包括了"虚拟带库"的功能,而且可以在读一部分内容的同时进行写另一部分 内容,因而可以实现了在设备进行备份时的恢复、搬移/克隆操作。
61
5.4 分级存储的管理 存储实现分级以后,在线、近线与离线存储存放的数据价值不同,在同一级别存储内部(比 如在线和离线存储),存放的数据也应该不同,实现每一级别内的"分级存储"。如何将各个级别 存储中数据统一管理起来便成了最为关键的问题。 分级存储管理(Hierarchical Storage Management,HSM) 起源于 1978 年,首先使用于大 型机系统。近 10 年来,HSM 被广泛应用于开放系统的 Unix 和 Windows 平台。 分级存储管理是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储 设备作为磁盘设备的下一级设备,然后将磁盘中常用的数据按指定的策略自动迁移到磁带库等 二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存 储设备调回到上一级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁 盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。通俗地讲,数据迁移是一 种可以把大量不经常访问的数据存放在磁带库、光盘库等离线介质上,只在磁盘阵列上保存少 量访问频率高的数据的技术。当那些磁带等介质上数据被访问时,系统自动地把这些数据回迁 到磁盘阵列中;同样,磁盘阵列中很久未访问的数据被自动迁移到磁带介质上,从而大大降低 投入和管理成本。 HSM 应用也具备监测磁盘容量并在关键容量情况下作出反应的能力。这种软件经过配置后 可以为某个卷设定一个最小的剩余空间,如 20%。 如果软件发现该卷的剩余容量已经不足 20%,数据就会被从该卷移动至备用存储介质。这 样便可以立即释放空间,管理员也可以在今后有空闲时再来解决空间的问题。 由此可见,分级存储管理更多从降低成本、不影响数据应用效果的角度解决数据的存储问 题。事实上,降低成本、提高效率已成为 IT 厂商追逐技术进步的一个目标。近线存储就是这种 进步的产物。伴随单盘成本的下降,近线存储市场渐热,有业内专家预测,不久的将来,近线 存储技术将取代数据迁移技术,用户将以模拟海量空间的、更为安全可靠的磁盘介质保存历史 数据。而成熟完善的数据迁移软件技术将更为恰到好处的融入到近线存储设备中,为近线存储 技术的发展起到推波助澜的作用。
5.5 信息生命周期管理 现在着重介绍与分级存储管理密切相关信息生命周期管理。
62
目前,许多厂商和用户都认为,数据是具有生命周期的。Legato 公司将信息生命周期划分 为 7 个阶段,包括了数据从产生直至灭亡的全部过程。具体为:业务需求、采集/组织、保护/ 恢复、复制/镜像、共享、迁移/归档、删除。 由于是一个"周期"的管理,因此,在这个周期的每个环节都要有相应的产品来满足需求, 包括系统咨询、信息采集、数据保护、迁移、归档等等产品。在一定的时期,用户可能只会应 用到其中的某个或某几个环节,但是,把整个信息系统作为一个整体来管理是一个必然的趋势。 信息生命周期管理(Information Lifecycle Management,ILM)是 StorageTek 公司针对不断 变化的存储环境推出的先进存储管理理念。 ILM 不是某个硬件或软件产品,而是评估和管理信息的存储方式。它教育客户平衡信息价 值和管理费用,根据数据对企业生存的关键性以及企业发展带来的价值决定存储费用。信息从 产生到使用直到灭亡,其全部过程都需要进行管理,因此,信息生命周期管理是用户发展到一 定阶段的存储需求,只不过它是一种很复杂的需求,具体来说,就是如何建立一个更完整、更 具有价值的信息系统,能够完全满足用户对于数据的以下五种需求:随时访问、按时间恢复、 方便的共享、所有数据受到适当的保护以及按照一定的时间规定(比如法律规定)管理数据。 ILM 的核心是理解信息在其不同生命阶段中对企业的不同价值,帮助企业从战略高度来管 理信息。那么,管理信息和管理存储设备有何不同?从管理设备的角度出发,CIO 会不切实际 地期望不断降低存储费用,同时要求高性能。随着数据量的不断增加,可用的磁盘容量不断减 少,企业不得不无计划、被动地增加存储,导致系统环境越来越复杂,难以管理。从管理信息 的角度出发,企业会根据信息生命周期的特点,将其存储在与自身价值相符、并与拥有者所需 要的交流方式和服务方式相符的不同层次的架构里,通过有计划、主动地增加存储,不断降低 复杂性并增加整个存储系统的可用容量。 ILM 通过存储、保护、管理、集成四个组成部分实现信息管理费用与业务需求之间的平衡, 从而达到降低企业的风险和费用的目的。因此, ILM 使企业实现了"适当的信息,在适当的时 间,以适当的费用,存储在适当的设备上"。它从以下三个方面提升企业业务运营: (1) 帮助企业管理不断发展产生的变化和遇到的困难,为企业降低风险; (2) 提高企业的运行效率,降低运营费用,提高经济收益; (3) 帮助企业更好地管理资源,在市场上具有更好的竞争优势。
63
5.6 分级存储案例:电视台的具体应用 凡是拥有巨大数据量的用户都可以从应用分级存储中获得更大利益,尤其是电信、气象、 地震以及图像处理(电视台)等领域。以电信行业为例,在线业务系统需要在线存储;有些业 务需要查询客户 3 个月或 6 个月以前的信息记录,近线存储就很适合;更久的信息同样不能删 除,这就需要离线存储。同时,随着业务的不断进行又会产生新的数据,如何将在线、近线以 及离线的数据统一管理好需要利用分级存储管理和信息生命周期管理技术。 随着电视技术的发展,存储技术在电视领域得到了广泛应用。存储技术贯穿了电视节目的 拍摄、制作、播出及存储等整个流程。特别,随着电视事业的飞速发展,大量的专题片、系列 片等自办节目越来越多,节目的制作成本也越来越高,但节目经费非常有限,拍摄制作周期越 来越短,因此,素材资源的再利用就显得尤其重要。同一个素材很可能会被循环再用,重复使 用多次。媒体资产在信息咨询时代,对于电视台,最重要的媒体实体就是历年来存储的视音频 资料即电视节目,它已成为极具增值效益的一种无形资产。实现电视节目的良性管理将为资产 持有者节约成本的同时,带来可观的经济效益。 在物理层次上,电视台视音频素材的存储也有三种模式即:在线存储、近线存储和离线存 储。 电视台的在线存储设备永久连接在非线性编辑系统、硬盘播出系统等计算机系统中,并随 时保持可实时快速访问的状态。在线存储设备通常具有很高的访问速度和良好的反应能力,适 合访问要求频繁,并且对反应和数据传输都要求较高的应用。在电视台实际应用中在线存储设 备一般采用 SCSI 磁盘阵列、光纤磁盘阵列等,用于存储即将用于制作、编辑、播出的视音频素 材。 电视台的离线存储设备或存储介质平时没有装在线性编辑系统、硬盘播出系统等计算机系 统中,在存取数据时需要将存储设备或存储介质临时性地装载或连接到线性编辑系统、硬盘播 出系统等计算机系统中,当数据访问完成时可以脱开连接。一旦断开之后,就可以更换存储介 质。离线存储通常价格比较低廉,如磁带、磁带库、或光盘库等,可以将总的存储做得很大。 但是由于离线到在线的存储介质的装载过程很长,所以离线存储一般用来存储不常用的冷数据 包括制作年代较远的新闻片、专题片、纪录片、资料片等。 近线存储介于在线存储和离线存储之间,既可以做到较大的存储容量,又可以获得较快的 存取速度。近线存储设备一般采用自动化的数据流磁带或者光盘塔。近线存储设备用于存储和
64
在线设备发生频繁读写交换的数据包括近段时间采集的视音频素材或近段时间制作的新闻片、 专题片、纪录片、资料片等。 在线、近线、离线三种存储体相互配合,在电视台媒体资产管理系统的管理软件定义的迁 移策略控制下,既可保证资料的访问速度,又可扩充系统的存储容量。
第六章 数据迁移
数据迁移是数据系统整合中保证系统平滑升级和更新的关键部分。在信息化建设过程中, 随着技术的发展,原有的信息系统不断被功能更强大的新系统所取代。从两层结构到三层结构, 从 Client/Server 到 Browser/Server。在新旧系统的切换过程中,必然要面临一个数据迁移的问题。
6.1 数据迁移的概念 原有的旧系统从启用到被新系统取代,在其使用期间往往积累了大量珍贵的历史数据,其 中许多历史数据都是新系统顺利启用所必须的。另外,这些历史数据也是进行决策分析的重要 依据。数据迁移,就是将这些历史数据进行清洗、转换,并装载到新系统中的过程。数据迁移 主要适用于一套旧系统切换到另一套新系统,或多套旧系统切换到同一套新系统时,需要将旧 系统中的历史数据转换到新系统中的情况。银行、电信、税务、工商、保险以及销售等领域发 生系统切换时,一般都需要进行数据迁移。对于多对一的情况,例如由于信息化建设的先后, 造成有多个不同的系统同时运行,但相互间不能做到有效信息共享,所以就需要一套新系统包 容几套旧系统的问题。 数据迁移对系统切换乃至新系统的运行有着十分重要的意义。数据迁移的质量不光是新系 统成功上线的重要前提,同时也是新系统今后稳定运行的有力保障。如果数据迁移失败,新系 统将不能正常启用;如果数据迁移的质量较差,没能屏蔽全部的垃圾数据,对新系统将会造成 很大的隐患,新系统一旦访问这些垃圾数据,可能会由这些垃圾数据产生新的错误数据,严重 时还会导致系统异常。 相反,成功的数据迁移可以有效地保障新系统的顺利运行,能够继承珍贵的历史数据。因 为无论对于一个公司还是一个部门,历史数据无疑都是十分珍贵的一种资源。例如公司的客户 信息、银行的存款记录、税务部门的纳税资料等。
65
6.2 数据迁移的特点 系统切换时的数据迁移不同于从生产系统 OLTP (On-line Transaction Processing),到数据 仓库 DW(Data Warehouse)的数据抽取。后者主要将生产系统在上次抽取后所发生的数据变化 同步到数据仓库,这种同步在每个抽取周期都进行,一般以天为单位。而数据迁移是将需要的 历史数据一次或几次转换到新的生产系统,其最主要的特点是需要在短时间内完成大批量数据 的抽取、清洗和装载。 数据迁移的内容是整个数据迁移的基础,需要从信息系统规划的角度统一考虑。划分内容 时,可以从横向的时间和纵向的模块两个角度去考虑。
横向划分
以产生数据的时间为划分依据,需要考虑比较久远的历史数据如何迁移的问题。由于信息 技术的发展,以及存储工程师对计算机依赖性的增强,新系统每天往往需要比旧系统存储更多 的信息,同时为了解决数据量高增长带来的性能瓶颈,新系统一般只保留一定时期的数据,比 如 1 年,而把超过保存周期的数据,即 1 年以前的数据转移到数据仓库中,以便用于决策分析。 对于这种新系统的数据迁移,主要迁移 1 年以内的数据,1 年以前的历史数据需要另外考虑。
纵向划分
以处理数据的功能模块为划分依据,需要考虑在新系统中没有被包含的功能模块,其所涉 及数据的处理问题。这类数据由于无法建立映射关系,一般不需要迁移到新系统中。但对于模 块间偶合度比较紧密的旧系统,在纵向划分时需要注意数据的完整性。
6.3 数据迁移的三种方法 数据迁移可以采取不同的方法进行,归纳起来主要有三种方法,即系统切换前通过工具迁 移、系统切换前采用手工录入、系统切换后通过新系统生成。
系统切换前通过工具迁移
在系统切换前,利用 ETL(Extract Transform Load)工具把旧系统中的历史数据抽取、转 换,并装载到新系统中去。其中 ETL 工具可以购买成熟的产品,也可以是自主开发的程序。这 种方法是数据迁移最主要,也是最快捷的方法。其实施的前提是,历史数据可用并且能够映射 到新系统中。
66
系统切换前采用手工录入
在系统切换前,组织相关人员把需要的数据手工录入到新系统中。这种方法消耗的人力、 物力比较大,同时出错率也比较高。主要是一些无法转换到新系统中的数据,和新系统启用时 必需要而旧系统无法提供的数据采用这种方法,可作为第一种方法的有益补充。
系统切换后通过新系统生成
在系统切换后,通过新系统的相关功能,或为此专门开发的配套程序生成所需要的数据。 通常根据已经迁移到新系统中的数据来生成所需的信息。其实施的前提是,这些数据能够通过 其它数据产生。 数据迁移的策略 数据迁移的策略是指采用什么方式进行数据的迁移。结合不同的迁移方法,主要有一次迁 移、分次迁移、先录后迁、先迁后补等几种方式可供选择。
一次迁移
一次迁移是通过数据迁移工具或迁移程序,将需要的历史数据一次性全部迁移到新系统中。 一次迁移的优点是迁移实施的过程短,相对分次迁移,迁移时涉及的问题少,风险相对比较低。 其缺点工作强度比较大,由于实施迁移的人员需要一直监控迁移的过程,如果迁移所需的时间 比较长,工作人员会很疲劳。一次迁移的前提是新旧系统数据库差异不大,允许的宕机时间内 可以完成所有数据量的迁移。
分次迁移
分次迁移是通过数据迁移工具或迁移程序,将需要的历史数据分几次迁移到新系统中。分 次迁移可以将任务分开,有效地解决了数据量大和宕机时间短之间的矛盾。但是分次切换导致 数据多次合并,增加了出错的概率,同时为了保持整体数据的一致性,分次迁移时需要对先切 换的数据进行同步,增加了迁移的复杂度。分次迁移一般在系统切换前先迁移将静态数据和变 化不频繁的数据,例如代码、用户信息等,然后在系统切换时迁移动态数据,例如交易信息, 对于静态数据迁移之后发生的数据变更,可以每天同步到新系统中,也可以在系统切换时通过 增量的方式一次同步到新系统中。
先录后迁
先录后迁是在系统切换前,先通过手工把一些数据录入到新系统中,系统切换时再迁移其 它的历史数据。先录后迁主要针对新旧系统数据结构存在特定差异的情况,即对于新系统启用
67
时必需的期初数据,无法从现有的历史数据中得到。对于这部分期初数据,就可以在系统切换 前通过手工录入。
先迁后补
先迁后补是指在系统切换前通过数据迁移工具或迁移程序,将原始数据迁移到新系统中, 然后通过新系统的相关功能,或为此专门编写的配套程序,根据已经迁移到新系统中的原始数 据,生成所需要的结果数据。先迁后补可以减少迁移的数据量。
6.4 数据迁移的实现 数据迁移的实现可以分为三个阶段:数据迁移前的准备、数据迁移的实施和数据迁移后的 校验。 由于数据迁移的特点,大量的工作都需要在准备阶段完成,充分而周到的准备工作是完成 数据迁移的主要基础。具体而言,要进行待迁移数据源的详细说明,包括数据的存放方式、数 据量、数据的时间跨度,建立新旧系统数据库的数据字典,对旧系统的历史数据进行质量分析, 新旧系统数据结构的差异分析;新旧系统代码数据的差异分析;建立新老系统数据库表的映射 关系,对无法映射字段的处理方法,开发、部属 ETL 工具,编写数据转换的测试计划和校验程 序,制定数据转换的应急措施。 其中,数据迁移的实施是实现数据迁移的三个阶段中最重要的环节。它要求制定数据转换 的详细实施步骤流程;准备数据迁移环境;业务上的准备,结束未处理完的业务事项,或将其 告一段落;对数据迁移涉及的技术都得到测试;最后实施数据迁移。 数据迁移后的校验是对迁移工作的检查,数据校验的结果是判断新系统能否正式启用的重 要依据。可以通过质量检查工具或编写检查程序进行数据校验,通过试运行新系统的功能模块, 特别是查询、报表功能,检查数据的准确性。
6.3.1 数据迁移的技术准备 数据转换与迁移通常包括多项工作:旧系统数据字典整理、旧系统数据质量分析、新系统 数据字典整理、新旧系统数据差异分析、建立新旧系统数据之间的影射关系、开发部署数据转 换与迁移程序、制定数据转换与迁移过程中的应急方案、实施旧系统数据到新系统的转换与迁 移工作、检查转换与迁移后数据的完整性与正确性。
68
数据转换与迁移程序,即 ETL 的过程大致可以分为抽取、转换、装载三个步骤。数据抽取、 转换是根据新旧系统数据库的映射关系进行的,而数据差异分析是建立映射关系的前提,这其 中还包括对代码数据的差异分析。转换步骤一般还要包含数据清洗的过程,数据清洗主要是针 对源数据库中,对出现二义性、重复、不完整、违反业务或逻辑规则等问题的数据进行相应的 清洗操作,在清洗之前需要进行数据质量分析,以找出存在问题的数据,否则数据清洗将无从 谈起。数据装载是通过装载工具或自行编写的 SQL 程序将抽取、转换后的结果数据加载到目标 数据库中。 对数据的检查 数据格式检查:检查数据的格式是否一致和可用,目标数据要求为 number 型。 数据长度检查:检查数据的有效长度。对于 char 类型的字段转换到 varchar 类型中,需要 特别关注。 区间范围检查:检查数据是否包含在定义的最大值和最小值的区间中;例如年龄为 300, 或录入日期在 4000-1-1。 空值、默认值检查:检查新旧系统定义的空值、默认值是否相同,不同数据库系统对空值 的定义可能不同,需要特别关注。 完整性检查:检查数据的关联完整性。如记录引用的代码值是否存在,特别需要注意的是 有些系统在使用一段时间后,为了提高效率而去掉了外键约束。 一致性检查:检查逻辑上是否存在违反一致性的数据,特别是存在分别提交操作的系统。
6.4.2 数据迁移工具的选择 数据迁移程序的开发、部署主要有两种选择,即自主开发程序或购买成熟的产品。这两种 选择都有各自不同的特点,选择时还要根据具体情况进行分析。纵观目前国内一些大型项目, 在数据迁移时多是采用相对成熟的 ETL 产品。可以看到这些项目有一些共同特点,主要包括: 迁移时有大量的历史数据、允许的宕机时间很短、面对大量的客户或用户、存在第三方系统接 入、一旦失败所产生的影响面将很广。同时也应该看到,自主开发程序也被广泛地采用。 相关的 ETL 产品 目前,许多数据库厂商都提供数据抽取工具,如 Informix 的 InfoMover、Microsoft SQL Server 7 的 DTS 和 Oracle 的 Oracle Warehouse Builder 等,这些工具在一定范围内解决了数据的提取和
69
转换。但这些工具基本都不能自动完成数据的抽取,用户还需利用这些工具编写适当的转换程 序。 例如 Oracle 的 Oracle Warehouse Builder 数据抽取工具,简称 OWB,提供的功能包括:模 型构造和设计;数据提取、移动和装载;元数据管理等。但 OWB 提供的流程繁琐,维护很困 难,不易于使用。 在第三方产品中,Ascential Software 公司的 DataStage 是一套相对比较完善的产品。 DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗, 装载到各种系统里面。其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度, 提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而 实用的功能。其中简单的数据转换可以通过在界面上拖拉操作和调用一些 DataStage 预定义转换 函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且 DataStage 提供调 试环境,可以极大地提高开发和调试抽取、转换程序的效率。
6.4.3 数据抽取和转换的准备 数据抽取前,需要作大量的准备工作。具体如下: 1、 针对目标数据库中的每张数据表,根据映射关系中记录的转换加工描述,建立抽取函 数。该映射关系为前期数据差异分析的结果。抽取函数的命名规则为:F_目标数据表名_E。 2、 根据抽取函数的 SQL 语句进行优化。可以采用的优化方式为:调整 SORT_AREA_SIZE 和 HASH_AREA_SIZE 等参数设置、启动并行查询、采用提示指定优化器、创建临时表、对源 数据表作 ANALYZES、增加索引。 3、 建立调度控制表,包括 ETL 函数定义表(记录抽取函数、转换函数、清洗函数和装载 函数的名称和参数)、抽取调度表(记录待调度的抽取函数) 、装载调度表(记录待调度的装载 信息)、抽取日志表(记录各个抽取函数调度的起始时间和结束时间以及抽取的正确或错误信 息)、装载日志表(记录各个装载过程调度的起始时间和结束时间以及装载过程执行的正确或错 误信息)。 4、建立调度控制程序,该调度控制程序根据抽取调度表动态调度抽取函数,并将抽取的数 据保存入平面文件。平面文件的命名规则为:目标数据表名.txt。 数据转换的工作在 ETL 过程中主要体现为对源数据的清洗和代码数据的转换。数据清洗主 要用于清洗源数据中的垃圾数据,可以分为抽取前清洗、抽取中清洗、抽取后清洗。ETL 对源
70
数据主要采用抽取前清洗。对代码表的转换可以考虑在抽取前转换和在抽取过程中进行转换。 具体如下: 1、针对 ETL 涉及的源数据库中数据表,根据数据质量分析的结果,建立数据抽取前的清 洗函数。该清洗函数可由调度控制程序在数据抽取前进行统一调度,也可分散到各个抽取函数 中调度。清洗函数的命名规则为:F_源数据表名_T_C。 2、针对 ETL 涉及的源数据库中数据表,根据代码数据差异分析的结果,对需要转换的代 码数据值,如果数据长度无变化或变化不大,考虑对源数据表中引用的代码在抽取前进行转换。 抽取前转换需要建立代码转换函数。代码转换函数由调度控制程序在数据抽取前进行统一调度。 代码转换函数的命名规则为:F_源数据表名_T_DM。 3、对新旧代码编码规则差异较大的代码,考虑在抽取过程中进行转换。根据代码数据差异 分析的结果,调整所有涉及该代码数据的抽取函数。
6.4.4 数据迁移后的校验 在数据迁移完成后,需要对迁移后的数据进行校验。数据迁移后的校验是对迁移质量的检 查,同时数据校验的结果也是判断新系统能否正式启用的重要依据。可以通过两种方式对迁移 后的数据进行校验。 对迁移后的数据进行质量分析,可以通过数据质量检查工具,或编写有针对性的检查程序 进行。对迁移后数据的校验有别于迁移前历史数据的质量分析,主要是检查指标的不同。迁移 后数据校验的指标主要包括五方面:完整性检查,引用的外键是否存在;一致性检查,相同含 义的数据在不同位置的值是否一致;总分平衡检查,例如欠税指标的总和与分部门、分户不同 粒度的合计对比;记录条数检查,检查新旧数据库对应的记录条数是否一致;特殊样本数据的 检查,检查同一样本在新旧数据库中是否一致。 新旧系统查询数据对比检查,通过新旧系统各自的查询工具,对相同指标的数据进行查询, 并比较最终的查询结果;先将新系统的数据恢复到旧系统迁移前一天的状态,然后将最后一天 发生在旧系统上的业务全部补录到新系统,检查有无异常,并和旧系统比较最终产生的结果。
71
第七章 系统灾难备份 7.1 容灾技术的意义 当应用系统的一个完整环境因灾难性事件(如火灾、地震等)遭到破坏时,为了迅速恢复应 用系统的数据、环境,立即恢复应用系统的运行,保证系统的可用性,这就需要异地灾难备份 系统(也称容灾系统)。可以说,对于关键事物的处理系统,如联通的各项业务系统(客户服务、 计费、IDC 等),建立最高级别的安全体系,也是提高服务质量、在竞争中立于不败之地的重要 举措。 长期以来,对企业而言,建立一套可行的容灾系统相当困难,主要是高昂的成本和技术实现的 复杂度。鉴于此,从可行性而言,必须具有良好的性能价格比。 建立异地容灾系统,即指建立远程的数据中心,通过配置远程容灾系统将本地数据实时进 行远程复制,同时实现本地系统故障时应用系统的远程启动,确保系统的不中断运行。 建立异地容灾中心的优势在于:
强大的一级灾难抗御能力。
有效防止物理设备损伤产生的灾难后果。
提供 99.9999%的安全机制。
实时数据复制提供强大的数据交换能力。
随着数据安全技术的发展,Cluster(HA)的技术越来越成熟,Cluster 的部署越来越普及, Cluster 技术确实解决了用户系统的高可用性问题,为业务的良性发展提供了稳定的基石。随着 业务的发展,商业环境对服务供应商提出的要求也越来越苛刻,这必将使应用系统及其数据对 高可用性的要求走上一个新的台阶。 一个本地 Cluster 系统理论上可以提供 99.99%以上的系统高可用性,但一旦发生火灾、自 然灾害、人为破坏等意外事件,服务商将如何应对呢?如果没有必要的准备和应对手段,这样 的一次意外对服务上来说将是灾难性的。对于 IT 部门来讲,要提高自己的抗灾能力,其必要的 技术就是建立起一个容灾系统。
72
7.2 容灾技术的分类 一个容灾系统的实现可以采用不同的技术,一种技术是:采用硬件进行远程数据复制,存 储工程师称为硬件复制技术。这种技术的提供者是一些存储设备厂商。数据的复制完全通过专 用线路实现物理存储设备之间的交换。另一种技术是:采用软件系统实现远程的实时数据复制, 并且实现远程的全程高可用体系(远程监控和切换)。这种技术的代表如 VERITAS 等一些著名 存储软件厂商。存储工程师在下面的章节会对以上两种技术进行详细的论述。 容灾系统的归类在另一个方面要由其最终达到的效果来决定。从其对系统的保护程度来分, 存储工程师可以将容灾系统分为:数据容灾和应用容灾。 所谓数据容灾,就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个实时 复制。在本地数据及整个应用系统出现灾难时,系统至少在异地保存有一份可用的关键业务的 数据。该数据可以是与本地生产数据的完全实时复制,也可以比本地数据略微落后,但一定是 可用的。 所谓应用容灾,是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备 份应用系统(可以是互为备份)。建立这样一个系统相对比较复杂,不仅需要一份可用的数据复 制,还要有包括网络、主机、应用、甚至 IP 等资源,以及各资源之间的良好协调。应用容灾应 该说是真正意义上的容灾系统。 存储工程师先讨论一下数据容灾。 数据容灾(硬件容灾方案和软件容灾方案均包括),又称为异地数据复制技术,按照其实现 的技术方式来说,主要可以分为同步传输方式和异步传输方式(各厂商在技术用语上可能有所 不同。而根据容灾的距离,数据容灾又可以分成远程数据容灾和近程数据容灾方式。下面,存 储工程师将主要按同步传输方式和异步传输方式对数据容灾展开讨论,其中也会涉及到远程容 灾和近程容灾的概念,并作相应的分析。
7.2.1 同步传输的数据复制 有关同步数据容灾,在传统意义上讲,就是通过容灾软件(可以含在硬件系统内) ,将本地 生产数据通过某种机制复制到异地。从广义上讲,同步数据容灾是指在异地建立起一套与本地 数据实时同步的异地数据。
73
图 7-1 同步数据的一个实例
从上图可以看出,采用同步传输方式进行异地数据容灾的过程包括: 1.
本地主机系统发出第一个 I/O 请求 A;
2.
主机会对本地磁盘系统发出 I/O 请求;
3.
本地磁盘系统完成 I/O 操作,并通知本地主机“I/O 完成”;
4.
在往本地 I/O 的同时,本地系统(主机或磁盘系统)会向异地系统发出 I/O 请求 A;
5.
异地系统完全 I/O 操作,并通知本地系统“I/O 完成”
6.
本地主机系统得到“I/O 完成”的确认,然后,发出第二个 I/O 请求 B。
不同的异地数据复制技术的实现方式是不同的,包括:
基于主机逻辑卷层的同步数据复制方式(软件复制方式);
基于磁盘系统 I/O 控制器的同步数据复制方式(硬件复制方式);
首先,描述基于主机逻辑卷的同步数据复制方式。
74
基于主机逻辑卷的同步数据复制方式以 VERITAS Volume Replicator(VVR)为代表,VVR 是集成于 VERITAS Volume Manager(逻辑卷管理)的远程数据复制软件,它可以运行于同步模 式和异步模式。在同步模式下,其实现原理如下图:
图 7-2 基于逻辑卷的数据复制实例
当主机发起一个 I/O 请求 A 之后,必然通过逻辑卷层,逻辑卷管理层在向本地硬盘发出 I/O 请求的同时,将同时通过 TCP/IP 网络向异地系统发出 I/O 请求。其实现过程如下: 1.
本地主机系统发出第一个 I/O 请求 A;
2.
主机逻辑卷层会对本地磁盘系统发出 I/O 请求;
3.
本地磁盘系统完成 I/O 操作,并通知本地逻辑卷“I/O 完成” ;
4.
在往本地磁盘系统 I/O 的同时,本地主机系统逻辑卷会向异地系统发出 I/O 请求 A;
5.
异地系统完成 I/O 操作,并通知本地主机系统“I/O 完成”
6.
本地主机系统得到“I/O 完成”的确认,然后,发出第二个 I/O 请求 B。
其次,考察基于磁盘系统的同步数据复制功能 基于磁盘系统的同步数据复制功能实现异地数据容灾,如 SRDF 和 PPRC。这两个软件运 行的平台是磁盘系统,部署这样的系统必须要求在两端采用相同种类的磁盘系统。
75
其同步数据复制的实现原理如下图:
图 7-3 基于磁盘系统的数据复制实例
当主机发出一个 I/O 请求 A 之后,I/O 进入磁盘控制器。该控制器在接到 I/O 请求后,一方 面会写入本地磁盘,同时利用另一个控制器(或称通道),通过专用通道(如:ESCON)、FC 光纤通道(IP over FC)或者租用线路,将数据从本地磁盘系统同步的复制到异地磁盘系统。其 实现过程如下: 1.
本地主机系统发出第一个 I/O 请求 A;
2.
主机对本地磁盘系统发出 I/O 请求;
3.
在往本地磁盘系统 I/O 的同时,本地磁盘系统会向异地磁盘系统发出 I/O 请求 A;
4.
本地磁盘系统完成 I/O 操作;
5.
异地系统完成 I/O 操作,并通知本地磁盘系统“I/O 完成”
6.
本地次盘系统向主机确认“I/O 完成”,然后,主机系统发出第二个 I/O 请求 B。
7.2.2 同步数据容灾的性能分析 利用同步传输方式建立异地数据容灾,可以保证在本地系统出现灾难时,异地存在一份与 本地数据完全一致的数据备份(具有完整的一致性)。但利用同步传输方式建立这样一个系统, 必须考虑“性能”这个因素。
76
采用同步数据传输方式时,从前面的描述来看,本地系统必须等到数据成功的写到异地系 统,才能进行下一个 I/O 操作。一个 I/O 通过远程链路写到异地系统,涉及到 3 个技术参数: 带宽、距离和中间设备及协议转换的时延。
带宽
本地 I/O 的带宽是 100MB/秒(SAN 网络中),在 I/O 流量很大的情况下,如果与远程的 I/O 带宽相对“100MB/秒 == 800Mbit/秒”窄得多的话,如 E1:2Mbit/秒;E3:45Mbit/秒,将会明显 拖慢生产系统的 I/O,从而影响系统性能。
距离
光和电波在线路上传输的速度是 30 万公里/秒,当距离很长时,这种线路上的延时将会变 得很明显。例如:一个异地容灾系统的距离是 1000KM,其数据库写盘的数据块大小是 10KB (一次 I/O 的数据量),那么: 本地 I/O 时(100 米距离内): 光电在线路上的延时
= 0.1km/300,000km*2 次/一个来回 = 0.67 * 10-6 秒
1 秒钟内允许 I/O 次
= 1/(0.67 * 10-6 )= 1.5 * 10-6 次
1 秒钟允许的 I/O 量
= 10KB * 1.5 * 10-6
= 15GB
此数字远远超过光纤通道带宽本身,也就是说,光电在 100 米距离的线路上的延时对性能 的影响可以忽略不计。 异地 I/O 的(1000 公里): 光电在线路上的延时
= 1000km/300,000km*2 次 = 1/150 秒
1 秒钟内允许 I/O 次
= 1/(1/150 )= 150 次
1 秒钟允许的 I/O 量
= 10KB * 150 = 1.5MB
此数据表明,在 1000 公里距离上,允许的最大 I/O 量在不存在带宽限制时,已经远远低于 本地 I/O 的能力。(注:上面分析还未考虑中间设备及协议转换的延时)。
中间链路设备和协议转换的时延
77
中间链路设备和协议转换的方式的不同,时延不同,对性能的影响也不同。在对性能影响 的分析中,这个因数也应计算在内。目前不同异地数据复制技术所依赖的介质和协议不同,存 储工程师将介质、协议和大概时延例表如下,这里提供的数据只精确到数量级,仅供参考,实 际数据应该向设备供应商索取。
链路设备和协议 租用线路 ESCON LAN ATM IP over FC FC
表 7-1 数据线路处理时延估计 带宽 支持的距离 设备和协议转换时延 任意 不受限制 约 1ms 136Mbit < 100us 66 公里 1000Mbit < 100us 10 公里 655Mbit < 100us 不受限制 800Mbit < 100us 60 公里 800Mbit < 10us 60 公里
下面是一个线路时延分析对照表,供参考。 表 7-2 数据传输距离时延 距离 1000KM 6ms 租用线路 ATM
线路时延 / 次 I/O 支持的链路和协议
100KM 600us 租用线路 ATM
10KM 60us 租用线路 ATM ESCON LAN IP over FC FC
10KB/ms
本地磁盘 I/O 能力
在 1000 公里和 100 公里距离上,采用租用线路和 ATM,允许的最大 I/O 能力(假定带宽 足够,数据块大小以 10KB 为例): 表 7-3 线路系统考察 1000 公里 ATM 租用线路 线路时延 / 次 I/O 设备和协议时延 每个 I/O 响应时间 备注
6ms > 1ms > 8ms
100 公里 租用线路
6ms 600us < 100us > 1ms > 7ms > 2.6ms 不适合用同步传输方式 不适合用同步传输
ATM 600us < 100us 1.7ms
在 10 公里距离上,采用各种传输协议允许的最大 I/O 能力,数据块大小以 10KB 为例(假 定带宽足够) :
78
表 7-4 等距离条件下的时间延时
租用线路 线路时延/次 设备协议时延 I/O 次数/秒 I/O MB/秒 备注
60us > 1ms 485-930 4.8-9.3
10 公里 ESCON,IP over FC 60us 60us < 100us < 100us 900-5800 900-5800 9-58 9-58 适合用同步传输
ATM/LAN
FC 60us < 10us 900-12500 9-125
7.2.3 异步数据复制方式 从前面的分析来看,同步数据容灾一般只能在较短距离内部署(10KM-100KM),大于这个 距离,就没有实际应用价值了。因为即使在 1000KM 距离上,4.5MB 的速率即使将数据复制到 异地,每个 I/O 的响应时间也会超过 10ms,这种响应速度太慢。
异步数据容灾是在“线路带宽和距离能保证完成数据复制过程,同时,异地数据复制不影 响生产系统的性能”这样的要求下提出来的。考虑异步数据容灾,应该注意到以下几个技术条 件和事实。 1.
带宽必须能保证将本地生产数据基本上完全复制到异地容灾端,还要考虑距离对传 输能力的影响。
2.
按照前面的估算:在 1000 公里范围内,一条带宽足够的线路能支持的 I/O 流量最大 为(数据块大小 10KM ):1.4MB×3600 秒×24 小时=120GB/天
3.
异地容灾远端数据会比本地生产端数据落后一定时间,这个时间随采用的技术,带 宽、距离、数据流特点的不同而不同。一般而言,软件方式的数据复制技术具有完 整的数据包的排队和断点重发机制,在灾难情况下可以保证灾难时间点的数据一致 性。
4.
异步容灾基本不影响本地系统性能。
与同步传输方式相比,异步传输方式对带宽和距离的要求低很多,它只要求在某个时间段 内能将数据全部复制到异地即可,同时异步传输方式也不会明显影响应用系统的性能。其缺点 是在本地生产数据发生灾难时,异地系统上的数据可能会短暂损失(如果广域网速率较低,交 易未完整发送的话),但不影响一致性(类似本地数据库主机的异常关机)。
79
通过异步传输模式进行异地数据复制的技术,包括: 1.
基于主机逻辑卷的数据复制方式
2.
基于磁盘系统 I/O 控制器的数据复制方式
基于主机逻辑卷(Volume)的数据复制方式
首先申明:针对这种方式,这以 VERITAS VVR 为例,但并不表示所有基于主机进行复制 的其它软件采用同样方式,也不保证其它软件是有应用价值的。 VERITAS VVR (Volume Replicator)通过基于 Volume 和 Log 的复制技术,保证在任何时 刻本地系统发生自然灾难时,在异地的数据仍是可用的。 VERITAS VVR 在异步模式下采用了 Log 技术来跟踪未及时复制的数据块,这个 Log 是一 个先到先服务的堆栈,每一笔 I/O 处理都会首先被放进这个 Log,并按到达先后顺序被复制到 异地服务器系统。 下图是其工作的结构原理。
图 7-4 基于逻辑卷的异步数据复制
从上图,存储工程师可以看到整个 I/O 和复制的过程如下: 1.
本地主机系统发出第一个 I/O 请求 A 到逻辑卷;
2.
逻辑卷对本地磁盘系统发出 I/O 请求;
80
3.
在往本地磁盘系统 I/O 的同时,逻辑卷向本地磁盘系统上的 VVR Log 发出相同的写请 求;
4.
本地磁盘系统完成 I/O 操作;并通知逻辑卷“I/O 完成”;
5.
VVR 完成针对这个 I/O 的远程操作,并通知逻辑卷;
6.
逻辑卷向主机确认“I/O 完成”。
服务器的另一个进程:VVR 的进程,负责将 Log 队列中的 I/O 复制到异地服务器。这个过 程和上面的 I/O 过程在时间上无关。如上图中的标记:“I”和“II”。 I: II:
本地 VVR 进程从 Log 队列中取出最先到达的 I/O,复制到异地服务器 异地服务器接收到本地服务器 VVR 发出的 I/O 请求,将相应数据写到异地磁盘系统,
然后,通知本地系统 VVR 进程,要求下一个 I/O。 这里,跟踪未及时复制的数据块的 Log 技术是保证异地数据可用的必要条件。一个数据库 的 I/O 是有严格顺序的,这个顺序是保证数据库完整性的必要条件,一个完整性被破坏的数据 库一般是不可用的,比如根本无法启动、打开该数据库,且是无法修复的。本地数据库的完整 性是由数据库本身来维护的。当一个数据库被实时复制到异地时,要保证异地数据库的完整性, 必然保证在异地磁盘 I/O 上的 I/O 顺序和本地 I/O 顺序完全相同,否则,异地数据库的完整性就 无法保证。 VERITAS VVR 采用的 I/O 控制机制是支持先到先服务的 Log 技术,因此,不管异地数据 比本地数据落后多少时间,都能保证异地数据库数据的一致性。比如:本地系统在 12:00 时发 生自然灾难,由于部分数据未被及时复制到异地,如有 10 分钟的数据未完成复制,那么在异地 系统上存在 11:50 分钟以前的所有数据,且这个数据库是可用的。 目前的基于磁盘系统的异地数据复制技术采用 Bitmap 技术和 Timestamp 技术,这两种技术 都不能保证本地向异地复制数据的顺序严格和本地 I/O 的顺序相同,所以,这两种方式都不能 保证异地数据库的完整性。 Bitmap(位图)技术记录未被及时复制的数据块的方法是:对于每个数据块(如 32KB)用 一个 Bit 来对应,某一个 Bit 被置为“1”时,表示其对应的数据块已被修改过,正在等待处理 (这里是等待被复制)。由此可以看出,当有一块以上的数据块未被及时复制时,系统并无法确
81
认哪一块数据块应该先复制到异地,所以,系统将任选一块,即不按到达的时间先后进行复制。 可以看出,这种方式不能根本保证异地数据库数据的完整性、一致性。 Timestamp 方式是对每个未及时传送的数据块盖上一个时间戳。从表面上看,由于时间戳 的关系,好像能确定一个数据块被修改的时间顺序了。其实不然:当一个未被及时复制的数据 块被第 2 次修改,并盖上新的时间戳时,数据复制的顺序就被破坏了。例如: 现在有 10 块数据块未被复制,编号“1、2、3、4、5、6、7、8、9、10” ;这时,第 3 块数 据被再次修改,并被盖上一个新的时间戳“11”;这时,系统会按这样的次序进行复制: “1、2、 (没有 3)、4、5、6、7、8、9、10、11”。存储工程师可以看到,在复制进行到“4~10”之间 时,异地数据的完整性被破坏。 事实上,在一个运行繁忙的系统中,出现这种情况机率极高,甚至每时每刻都处在这种状 态之下。所以,本着严格的,对系统可用性负责任的态度,可以认为“Timestamp”的技术虽然 比 Bitmap 技术有一定优势,但实际上也无法保证异地数据的完整性和可用性。 Bitmap 和 Timestamp 方式的技术弱点:没有 log; 作为磁盘系统内置的数据复制功能,传统的磁盘管理模式没有考虑在磁盘系统内部开辟出 一个磁盘块给磁盘系统控制器本身使用,所以,磁盘系统无法采用 log 模式进行异步数据复制。 磁盘系统保留异步传输模式的目的:复制,但不是容灾复制; 数据复制的目的不仅仅是容灾。数据容灾要求两地时时保持连接,数据复制过程在任一时 间都在进行(除非有线路或设备故障) 。而非容灾性复制只要求在某一个时间段里将数据复制到 异地,复制告一段落后(在某一时刻完全同步),复制工作会暂停。这种复制可能是为一个特殊 目的只做一次,如在线业务迁移;也可能每天或每月追加一次。这样,在异地就会存在一份最 大损失数据量为 1 天或 1 个月的生产数据复制品,其对数据的保障能力,如同磁盘备份。这种 方式复制数据的目的包括:1)在异地保存一份备份数据(如同磁带备份异地保存) 。2)在线业 务迁移,当信息中心或其中的一个服务要迁移到另一个地方,又希望少停机(实际上也可用磁 带备份和恢复来实现)。3)利用与磁盘快照技术结合,为异地开发中心提供一个与生产数据尽 量相同的测试数据源。当然,也可用于其它可能的目的。 综上所述,可以看出,虽然基于磁盘系统的异地数据复制功能有异步传输模式,但实际上 并不支持异步数据容灾,只有像 VERITAS Volume Replicator 这样基于先进先出的 Log 技术的解 决方案才真正支持异步数据容灾。
82
7.3 容灾方法的具体分析 7.3.1 灾难备份需求的衡量指标 对于大多数企业而言,提到灾难备份,最直接的反映就是增加预算,购买更多的主机,存 储设备以及相应软件。虽然这是实施灾难备份项目的一个必要步骤,但是,从“灾备方案应是 风险和成本相应平衡”的出发点来综合考虑,实施灾难备份项目的第一步应该从“分析评估以 确定灾难灾难备份需求目标”开始。 z
RTO (Recovery Time Objective)
RTO,Recovery Time Objective,是指灾难发生后,从 I/T 系统当机导致业务停顿之刻开始, 到 IT 系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为 RTO。 一般而言,RTO 时间越短,即意味要求在更短的时间内恢复至可使用状态。虽然从管理的 角度而言,RTO 时间越短越好,但是,这同时也意味着更多成本的投入,即可能需要购买更快 的存储设备或高可用性软件。 对于不同行业的企业来说,其 RTO 目标一般是不相同的。即使是在同一行业,各企业因业 务发展规模的不同,其 RTO 目标也会不尽相同。 RTO 目标的确定可以用下图来说明:
7-5 投入/收益示意图
83
如上所说,RTO 目标越短,成本投入也越大。另一方面,各企业都有其在该发展阶段的单 位时间赢利指数,该指数是通过业务冲击分析(BIA-Business Impact Analysis)咨询服务,以交 谈、问答和咨询的方式得到确定的。在确定了企业的单位时间赢利指数后,就可以计算出业务 停顿随时间而造成的损失大小。如上图,结合这两条曲线关系,存储工程师将可以找到对该企 业而言比较适合的 RTO 目标,即在该目标定义下,用于灾难备份的投入应不大与对应的业务损 失。 z
RPO (Recovery Point Objective)
RPO,Recovery Point Objective,是指从系统和应用数据而言,要实现能够恢复至可以支持 各部门业务运作,系统及生产数据应恢复到怎样的更新程度。这种更新程度可以是上一周的备 份数据,也可以是上一次交易的实时数据。 与 RTO 目标不同,RPO 目标的确定不是依赖于企业业务规模,而是决定于企业业务的性质 和业务操作依赖于数据的程度。因此,RPO 目标对相同行业的企业而言会有些接近,而对于不 同行业的企业来说仍可能会有较大差距。 RPO 目标仍是以咨询的方式,通过与各业务部门主管的交流,了解业务流程和 IT 应用的关 系,以及通过回答问卷的方式,确定能够支持该企业核心业务的 RPO 目标。
7.3.2 重要系统灾难备份主要的实现方法 在目前的技术条件下,重要系统灾难备份主要的实现方法主要有一下几种: 1
基于应用本身的容灾――应用直接指向 2 个同时运作的数据中心,在任意一个中 心活动情况下继续工作
2
基于文件/数据库日志――通过复制数据库日志和数据文件方式,从生产中心向容 灾中心进行数据容灾
3
基于复制磁盘容灾――通过复制磁盘 IO 的方式,从生产中心向容灾中心进行数据 容灾,根据复制设备的不同,有可以分为: z
基于主机
z
基于磁盘阵列
z
基于智能 SAN 虚拟存储设备
84
下面对各种方式进行一个简单比较: 表 7-5 容灾方式比较 容灾方式
RTO
应用要求
主机要求
存储要求
基于应用本身
0
极高
同构,必要
可异构
基于文件/数据库日志
>0,至少
低
同构,必要
可异构
一个 LOG 基于复制磁盘容灾(主机)
0
透明
同构,非必要
可异构
基于复制磁盘容灾(阵列)
0
透明
同构,非必要
同构
基于复制磁盘容灾(SAN)
0
透明
同构,非必要
可异构
7.3.3 灾难备份方式比较的分析 各种容灾方式下,只有基于应用本身的方式可以做到 RTO 为 0;其它方式一般需要进行网 络切换、存储切换和数据库重启等工作,RTO 一般从几十分钟到数小时不等。各种容灾方式下, 一般都要求主机和数据库同步,虽然存在理论上的异构可能,但是在具体实施时会给开发/测试 带来巨大的难度,并大大降低容灾系统的稳定程度,一般不会采用 基于应用本身的方式虽然可以做到 RTO 为 0,但是对应用要求极高,并且需要极其复杂的 机制处理双中心的数据同步问题;目前浙江系统众多,应用复杂,如果采用这种方案,需要对 所有应用进行更改,实施难度极大,顾不予推荐。基于基于文件/数据库日志的方式,只能以文 件方式传输数据,数据丢失单位至少一个文件,无法做到 RTO=0,在不允许丢失数据的关键应 用上也不适合,顾不予推荐。 基于复制磁盘容灾主要有同步和异步 2 种方式,异步方式无法做到 RTO=0,在不允许丢失 数据的关键应用上也不适合,顾不予推荐;同步方式的情况下,以复制主题不同进行分类。 基于主机复制磁盘数据:磁盘阵列可以异构是最大的优点;但是,这种方式容灾时对主机 性能有一定影响,针对不同的主机需要采用不同的实现方式,目前浙江系统众多,应用复杂, 如果采用这种方案,需要对所有主机进行论证和实施,实施难度较大,顾不予推荐 基于磁盘阵列复制磁盘数据:实施简单是最大的优点,不影响主机,只镜像数据,是目前
85
较主流的一种容灾方案;但是,这种方式容灾时,需要磁盘阵列高度同构,不但要求磁盘阵列 是一个厂商的,还必须是同一厂商同一系列的阵列,否则无法实现数据复制,所以,这种方案 多用于已经进行存储整合的大型系统;目前浙江的现实情况是系统非常多,不同系统采用不同 磁盘阵列,很多目前的系统还不支持磁盘阵列的远程镜像功能;如果实施这种方案,首先需要 升级/替换很多磁盘阵列,然后为每一种阵列在容灾中心配置相应的同构磁盘阵列,投资巨大, 每一种不同的阵列采用不同的软件,维护不便,而且,中心的各个存储各自工作,没有一个统 一存储池能够灵活调配资源,资源使用也狠浪费 基于智能 SAN 虚拟存储设备复制磁盘数据:这种方式拥有所有基于磁盘阵列复制磁盘数据 的优点,而且通过这种方式可以解决许多基于磁盘阵列无法解决的问题:
磁盘阵列可以完全异构,不同厂商不同系列的阵列可以混合使用,大大节约客户 方案复杂程度和实施难度
智能 SAN 虚拟存储设备实现远程容灾不在乎客户现有的 SAN 阵列是否支持远程 数据容灾,大大保护客户投资
智能 SAN 虚拟存储设备可以将中心的多个存储设备(如果有多个的话)作为一个 统一的存储池进行管理,存储效率大大提高
智能 SAN 虚拟存储设备针对不同的主机存储设备采用统一的软件实施远程容灾, 管理维护大大简化
所以,在目前情况下,基于智能 SAN 虚拟存储设备进行磁盘复制的方式是最适合目前项目 需要的,也是存储工程师主要推荐的方案。
7.3.4 采用 SAN 进行远程容灾的实现 目前,基于智能 SAN 虚拟存储设备进行磁盘复制比较成熟的方案这里给出的是 IBM 的 SVC(SAN Volume Controller,SAN 卷控制器),该设备发布于 2 年前发布,已经在全球 20 多个 国家安装了超过 1000 套系统。 采用 IBM SVC 实现远程容灾的方案简图如下: 在所有需要容灾的系统 SAN 网络种加入 SVC,然后就可以利用 SVC 的远程复制功能进行 数据容灾了。
86
图 7-6 IBM SVC远程容灾
7.3 容灾技术性能总结和对照 以下对于各种容灾技术的工作方式进行总结。 表 7-5 容灾比较列表 Software (同步) Software(异步) 理想距离 链路要求 理想链路带宽 对应用系统性能 的影响 是否需要专用磁 盘系统 部署的简单性 维护的简单性 造价 涉及软件
基于阵列的 同步数据容灾 60km (光纤) ESCON, ATM IP over FC
< 100km 任何支持 TCP/IP 的设备 > 40Mbit 很大
< 1000km 任何支持 TCP/IP 的设备 相对较小 很小
不需要
不需要
必须
长距:复杂 短距:一般 一般 中等 VVR
一般
硬件:复杂 软件:一般 一般 很高 阵列内置
简单 中等 VVR
> 40Mbit 很大
根据以上的分析,可以看出,硬件系统的容灾技术(指磁盘阵列)在对主机系统的内部开 销上较小,但是十分影响本地 IO 的性能,同时要求本地和异地均采用专用的磁盘阵列,成本和 造价极高。比较重要的是,这种方式的传输距离有限,仅限于同城传输。
87
采用软件的数据复制方式(如 VVR),一般采用异步方式。这种方式具有对本地系统 IO 影 响很小,传输距离长的优势,并且可以支持任意磁盘阵列,使得造价相对较小。不足是如果线 路速率较慢,会造成故障时轻微数据损失。
7.4 广域网络的高可用技术(软件容灾方式) 软件容灾方式中,支持应用容灾,即应用系统的完全高可用和远程切换系统,这里指一整 套完整的本地高可用系统和异地高可用系统的完整结合体系。本地的高可用系统指在多个服务 器运行一个或多种应用的情况下,应确保任意服务器出现任何故障时,其运行的应用不能中断, 应用程序和系统应能迅速切换到其它服务器上运行,即本地系统集群和热备份。 而远程的容灾系统中,除了本地系统的安全机制外,还应具有广域网范围的远程故障切换 能力和故障诊断能力。实际上,广域网范围的高可用能力与本地系统的高可用能力应形成一个 整体,实现多级的故障切换和恢复机制,确保系统在各个范围的可靠和安全。 广域网体系的远程故障切换机制的流程(软件方式): z
本地系统的故障分级,常规级别在本地系统进行高可用切换,如网卡故障、应用系统故 障、文件系统故障(本地 cluster)。
z
高级别故障(如火灾、地震),通过远程监控体系和报警体系实现远程切换(异地 cluster)。切换包括 IP、域名、应用等。
恢复体系: z
一旦故障解除,应用系统实现主备站点的恢复传输。
z
异地复制中断传输的恢复流程(软件方式复制) :
z
断点序号重传;或增量异地同步实现增量块复制。
88
第八章
系统恢复
8.1 灾难后信息安全的恢复规划 在发生任何一种灾难时,都需要考虑各种形式的损失: z
物理设施(受损的建筑物、工作场所、计算机、库存)
z
对设施的访问(报废的建筑物)
z
信息(受损的磁盘和计算机)
z
对信息的访问(没有远程数据库访问)
z
人员(生产人员、支持人员、管理人员)
8.1.1 要素分析 一个全面的灾难恢复规划必须采取所有必要的措施来确保业务的长期顺利运行。这意味着 必须研究和分析每个物理组件、每个软件组件、每个人力资源组件和每个业务流程,以及每个 元素可以接受的风险程度。必须考虑财务和管理问题。有效的规划应当考虑到所有潜在的灾难, 这其中包括自然灾害、恐怖袭击、网络灾难等。 (请参阅附录 A 中的关于如何准备和管理网络 灾难的信息)此外,必须考虑到向规划的"备份"模式的转变。 "供应链"分析是一种有用的技术, 可以用于恢复企业的物理资产。规划的这个部分应当阐明怎样处理不可用的生产或者存储设施、 订单输入系统、发货、应收账款和支付系统、备用部件和客户服务。时间也是一个非常重要的 因素。Gartner Group 最近建议企业将关键流程和应用的恢复时间缩短到 24 小时以内,并将非 关键性应用的恢复时间缩短到四天以内。 应当将三种解决方案视为规划流程的组成部分。一个企业可以(1)构建它自己的冗余系统 (例如,拥有两个独立的工厂,每个负责部分工作); (2)提前为需要在紧急情况下使用的设施 签约(例如由某个灾难恢复服务公司拥有和管理的热点数据中心);或者(3)购买可以抵消由 于灾难会导致的损失的保险(例如抵消为了满足紧急需要而租用设施或者购买产品、部件的成 本)。对于大多数企业来说,没有哪一种单一的方式是最好的;最有效的方法就是综合使用上面 这三种广泛的战略。 主要设备的供应商是所有规划的重要组成部分。确保供应商拥有足够的部件、人员和资金
89
资源,以便在发生大规模灾难的情况下迅速地帮助数据系统用户摆脱困境。 灾难恢复规划的关键是如何有效地传达和执行这些计划。在灾难发生之间与员工进行有效 的交流非常重要,这可以让他们知道如何采取紧急措施。Citigroup 的一位领导人在《Information Week》于 2001 年晚些时候发表的一篇文章中指出:"如果数据系统用户不能正确地做到这一点, 在灾难降临时数据系统用户的公司将会陷入一片混乱。如果不为灾难做好充分的准备,数据系 统用户的公司可能会破产。" 如果数据系统用户觉得制定一项有效的灾难恢复/业务连续性规划似乎超出了数据系统用 户的能力范围,尤其是在内部专业经验十分有限的情况下,就需要专业人员的帮助了。
8.1.2 信息技术构架 从 IT 的角度来说,一项全面的灾难恢复规划应当包含网络弹性、通信弹性和业务应用弹性。 一个富有弹性的网络首先应当具有有效的设计和架构,可以提供移动性和安全性,并以专门针 对高可用性而设计的平台为基础。在设计中,冗余有助于消除单点故障,而快速、自动的故障 切换可以确保迅速的恢复。对于流量设计、负载均衡和服务质量(QoS)的关注将能够处理性 能低下或者不符合预期的流量负载,这些负载可能会在没有故障时阻塞用户对于业务应用的访 问。 通信方面需要考虑的是语音和 PBX 流量,以及数据流量。IP 电话可以作为语音通信的主要 或者备用方式,而 IP 联络中心则可以提高企业与主要客户和供应商保持联络的能力。最近的一 些媒体报道介绍了一些将 IP 语音连接作为通信的唯一方式,而放弃采用 PBX 系统和电话交换 机的例子。基于 IP 的语音通信网络有助于提高移动性,实现员工的迅速调配--无论是到预先规 划的备份地点还是到会议中心和宾馆房间中的"临时办公室",都能迅速开展工作。 在应用方面,重要的业务应用必须保持可用性,而关键的企业和客户信息必须能够迅速恢 复。因此必须使用备用数据中心和异地数据备份和存储功能。(本文稍后将介绍如何通过 WAN 连接中心和终端用户) 要获得成功,灾难恢复规划在 IT 方面需要阐述的内容并不仅限于企业的数据中心。一个有 效的计划至少应当涉及到: z
数据中心环境,包括服务器、存储、供电和 HVAC
z
用户环境(PC、LAN、应用和客户端软件)
90
z
企业内部通信设施(建筑物内部、园区内部)
z
外部通信设施(电信运营商服务和线路)
z
管理(管理中心、帮助台、专业技能)
灾难恢复公司 Comdisco 在纽约市发生 911 事件之后发表了一篇关于灾难恢复的报告,中指 出:"恢复工作的效果绝大部分体现在业务终端用户身上--即计算的终端。通常这些业务终端用 户环境并不享有像数据中心那样的连续性规划。" 除了上面介绍的 IT 因素以外,规划还应当考虑到,在灾难发生后的很短时间内,电子邮件、 网站、电话、专用线路的使用率可能会大大超过平时。此外,由于网络中可能需要加入新的地 点,网络流量的使用模式也会发生变化。 规划还应当阐明,除了更换所损失的物理资产以外,企业在一次灾难之后很可能立即需要 的多种不同类型服务的来源。这些服务可能包括: z
保护和安全服务
z
残骸清理服务
z
抽水和相关的清洁服务
z
清理 HVAC 系统、管道等
z
从受损的介质中恢复数据
z
为员工提供后勤服务
网络的复杂性使得企业很难实现业务的弹性。在制定针对业务连续性、保护和灵活性的计 划的过程中,复杂程度越低越好。最大限度地减少提供设备的供应商的数量和去除无用的旧设 备是实现这种网络简便性的关键步骤。
8. 2
WAN 考虑因素
现代企业需要依靠网络通信来开展重要的业务,而 LAN 和 WAN 环境都必须准备就绪,以 便员工履行他们的职责。灾难恢复规划在工作场所方面的组成部分一定要纳入 LAN 和 WAN 访 问所需要的设备。 要保持 WAN 的可用性,以支持业务的发展,就意味着利用目前最可靠、最富有弹性的软 件,利用谨慎的网络设计,遵循从设计到日常操作的最佳实践,建立高度可用、容错的系统和
91
平台。 成功的 WAN 设计并不仅仅关注于连接性。确保业务弹性的原则之一就是尽量分散人员和 信息资产,以降低风险的理念。呼叫中心并不需要集中,数据也可以复制,同时需要为所有员 工提供对关键性业务应用(例如订单输入和客户服务)的访问。一个富有弹性的 WAN 设计需 要集成冗余,以消除单点故障;需要采用流量负载均衡技术,以确保连续的服务和可以接受的 响应;需要具有快速的故障切换能力,以实现快速的恢复,此外还应当为每种情况制定相应的 安全措施。这些都构成了很多挑战。LAN 或者园区环境中实际可用的带宽和电信运营商所提供 的带宽之间存在着明显的差异。尽管 T1 线路的价格比较合理,而且应用非常广泛,但是需要大 幅度增加预算,例如对于 T3 和 OC3 服务而言。目前在城区提供的一些基于光纤传输技术的新 型服务可以在很大程度上解决这个问题,最近的一些产品的价格非常低--100Mbps 快速以太网 服务的价格只有每月 1000 美元。当然利用 QoS 技术将 WAN 设计为一个可以同时传输语音/数 据/视频流量的网络也是降低成本的重要手段。 WAN 需求规划应当包括怎样连接现有的数据中心和现有的员工工作地点,怎样连接现有的
图
8-1
WAN建设方案
数据中心和备用的员工工作地点,以及怎样连接备份数据中心和现有的员工数据中心。如果在 不同的地点提供了异地数据存储,例如在某个电信运营商的设施中,那么 WAN 需求规划中还
92
必须加入这种连接。所有情况都应当包括对互联网连接的配置,这可以用于一般性应用,以及 帮助主要供应商和重要客户管理外联网。 无论采用怎样的网络设计和技术,都必须为设施和线路提供不同的物理路由。大多数被认 为是冗余网络的系统发生故障的原因都是光纤或者电路都需要经过同一个管道、出入孔或者中 央机构。 创建 WAN 的方法通常分为三类。每种方法都有一定的优点和缺点,需要企业用户投入的 工作量(和设备)也各不相同。这些方法(如图 1 所示)分别是: z
自行建设,即利用由电信运营商或者其他网络服务供应商提供的租用线路(或者"通道 "),例如 T1、T3、SONET 或者光纤波长,建立点对点的通道
z
采用帧中继(FR)或者 ATM 服务,它们可以在两点之间建立面向电路的"虚拟通道"
z
采用高级的无连接光传输网络服务,例如城域以太网或者城域 IP
在第一种方法中,最常见的方式是购买 SONET/SDH(同步光网/同步数字结构)通道。常 用的 SONET 传输等级是 OC-3(每秒 155Mb-Mb/s)、OC-12(622Mb/s)和 OC-48(2488Mb/s, 但是通常被称为 2.4Gb/s)。下面的表 2 列出了 SONET/SDH 的构成。 这种方法的另外一种做法是租用"暗"光纤,或者在电信运营商的光纤网络上购买一个或者 两个波长,并在每个地点安装下一代 SONET/SDH 设备(例如 Cisco ONS 15454)。暗光纤有时 又被称为未点亮光纤,它指的是两端没有连接电子设备的光纤。如果在某些城区,光纤的价格 非常具有吸引力,而企业的 IT 人员又拥有必要的专业能力,那么这种做法就能发挥作用。波长 表
8-1 SONET/SDH 构成 相同通道数
光纤信号 OC
同步传输速率信号 SONET/SDH 线路的传输速率
等级
STS
(Mbps)
OC-3
STS-3
155.52
3
84
2016
OC-12
STS-12
622.08
12
336
8064
OC-48
STS-48
2488.32
48
1344 32256
OC-192
STS-96
4976.64
96
2688 64512
DS-3 DS1 DS0
注:51.84Mbps 的 STS-1(即 OC-1)只能在设备(例如多路复用器)内部使用。
服务也是基于光纤的,但是包括了电信运营商对于波分复用(WDM)设备的设置。 在一个灾难恢复系统中,多个数据中心可以方便地连接到一起。所使用的设备和服务将取 决于特定的应用需求(例如同步镜像、远程磁带镜像等)。
93
思科的 15530/15540 非常适用于这些类型的应用,因为它们可以支持领先的存储系统供应 商(例如 IBM 和 EMC)提供的解决方案中所需要的协议,例如企业系统连接(ESCON)、系统 复用外部时钟基准、光纤通道、光纤连接(FICON)、光纤分布式数据接口(FDDI)和千兆位 以太网。 图8-2显示了这个应用,其中包括了一个部署由思科解决方案合作伙伴提供的存储阵列 的例子。在这些情况下,最大限度地降低延时和复杂性是主要的目标,而这个解决方案可以提 供足够的支持。 作为面向电路的方式的替代方案,通过在每个地点使用像 Cisco 10720 系列互联网路由器这 样的产品,企业可以在多个地点之间的暗光纤上建设一个城域 IP 网络。这种部署通常需要用两 条光纤环路连接所有地点,但是也可以采用电信运营商提供的、基于 SONET 的租用线路和波 长服务。这种方式针对 IP 组播等应用进行了优化,适用于内部员工培训应用等场合。 尽管 SONET 一直以它的故障检测和流量重新路由功能而闻名,但是 Cisco 10720 系列的动 态分组传输(DPT)技术也可以提供类似的功能,且效率要高得多。 (注意:DPT 是思科针对新 兴的 IEEE 弹性分组环路(RPR)标准开发的一项技术。)例如,SONET 和 RPR 都可以提供不
图8-2 数据中心备份部署 到 50 毫秒的故障检测时间,而 RPR 在每个环路上最多可以支持 254 个节点,而 SONET 最多只 能支持 16 个节点。RPR 可以提供自动的拓扑发现功能,而 SONET 需要手动操作。带宽设置在 RPR 中是自动完成的,但是在 SONET 需要手动完成。RPR 可以提供最多 8 种不同级别的服务, 而 SONET 不支持任何服务级别,因而只能提供一种等级的服务(如图8-3所示) 。 最佳的 WAN 设计可以在所有地点之间提供一种逻辑网格,可通过物理环路或通过点对点 通路实现。在很多城区,光纤可以通过一个物理环网连接很多地点,但是 WAN 仍然可以设计 为一个逻辑网格式网络。基于 SONET 的物理环路的保护通常是通过一种名为双向线路交换环 (BLSR)的技术提供的。这可以通过两条环绕物理环路的光纤实现,但是使用四根光纤可以通
94
过逻辑网格式设计,提供最高的耐久性。如需了解关于这种设计如何工作的细节信息,请参阅
图8-3 使用 DPT/RPR 的城域以太网 本文的"资源"部分提供的思科应用说明。
虚拟"通道" 有时被称为第二层 VPN 服务的传统 WAN 服务(例如帧中继和 ATM)都是分组交换的、面 向连接的服务,可以通过一个永久虚拟电路(PVC)在两个终端之间提供"逻辑的"、类似于专
图8-4 传统的 WAN 服务 线的服务。它们适用于集中星型两点间架构。 帧中继服务(FR)采用了能够传输可变长度的帧(每帧最多 4096 个字节)的 PVC。FR 可 以为建筑物专用网络提供多协议 LAN 互联。它可以设置性能(例如带宽)的等级,而 PVC 的 安全性也被普遍视为具有足够的强度。 ATM 只传输固定长度(53 字节)的信元,可以支持多 种流量,包括固有 ATM、FR、交换式兆位数据服务(SMDS)和电路模拟。它可以经济地按照 需要提供大量的带宽。ATM 的异步性和多媒体特性使得它可以传输电路和分组类型的流量,并
95
且对应用完全透明。 FR 和 ATM 都是面向连接的服务,具有简单的分界点,相对比较容易诊断。 帧中继 ATM 对于企业来说,这是一个功能透明的多地点连接。目前市场上出现了越多越多 的 MAN 服务,其中包括由思科在"思科支持网络"计划中推荐的很多电信运营商提供的城域以 太网或者城域 IP 服务。 IP VPN,也被称为第三层 VPN,可以在一个共享的基础设施上部署企业级的连接。IP VPN 让终端用户可以实现共享网络的成本优势,同时获得与他们自己的专用网络相同的安全性、 QoS、可靠性和可管理性。IP VPN 可以利用互联网和 IP 安全(IPSec)技术构建,或者利用多
图8-5 点对点城域以太网设计 协议标签交换(MPLS)技术在电信运营商的 IP 基础设施上构建。 在决定购买某种城域以太网或者城域 IP 服务之后,还需要考虑很多其他的选择。网络可以 配置为一种集中星型设计,由不同的虚拟 LAN(VLAN)将各个远程分支机构或者工作地点连 接到某个中央地点。(如图8-5 所示)企业可以使用一种基于以太网的透明 LAN 服务,从而 让城域中的整个企业位于一个单一共享以太网网段上。 (如图8-6 所示)因为可扩展性是选择 这些方案的一个重要因素,所以必须了解数据系统用户对企业的发展规划。
96
对于企业来说,这种网络是一个点对点的千兆位以太网连接,这种网络看起来像是一个共 享、扁平的 802.1Q 以太网域做出决定。正如存储工程师在本文中所指出的,在灾难恢复规划的 WAN 方面,没有一种"一劳永逸"的解决方案。但是,最佳实践包括避免覆盖整个园区的 VLAN、 将第三层作为所选方案的分界点,尽量灵活地增加冗余,以及尽量使用点对点连接(或者虚拟 电路)。 由于企业日益难以聘请和挽留高水平的 IT 人员,越来越多的企业开始倾向于外包业务,而 企业 IT 人员的专业能力和工作地点,以及可供使用的预算,都是非常重要的标准。 在任何一种情况下,企业都必须了解电信运营商所采用的技术。如果企业网络采用了思科 产品,符合 CiscoAVVID 标准,并且使用了具有"思科支持网络"称号的 WAN 服务时,整个计划 的 WAN 方面的工作将会变得更加简单和省力。这样做的最终结果是,企业可以获得一个更加
图8-6 城域透明 LAN 服务 富有弹性、经济有效、覆盖整个企业的网络。
97
第九章 IP SAN 系统设计 iSCSI 技术与应用
9.1
九十年代以前,存储产品大多作为服务器的组成部分之一,这种形式的存储被称为 SAS (Server Attached Storage,服务器附属存储)或 DAS(Direct Attached Storage,直接附属存储)。 随着技术发展,进入九十年代以后,人们逐渐意识到 IT 系统的数据集中和共享成为一个亟待解 决的问题。于是,网络化存储的概念被提出并得到了迅速发展。从架构上来分,今天的网络化 存储系统主要包括 SAN(Storage Area Network,存储区域网)和 NAS(Network Attached Storage, 网络附加存储)两大类。 目前,许多网络存储提供商致力于将 SAN 中使用的光纤通道(FC)设定为一种实用标准, 但是其架构需要高昂的建设成本,远非一般企业所能够承受。与之相比,NAS 技术虽然成本低 廉,但是却受到带宽消耗的限制,无法完成大容量存储的应用,而且系统难以满足开放性的要 求。iSCSI 在避开了传统 NAS/SAN 差别之后的以网络为中心的新存储方案(开放存储网络)中 同时享受到 NAS 和 SAN 拓扑结构的优势。“iSCSI”(互联网小型计算机接口)标准把存储设备 和服务器与应用普通互联网协议建立起来的网络结合在了一起,而不是使用速度更快但是价格 更昂贵、更复杂的光纤通道技术,为众多中小企业对经济合理和便于管理的存储设备提供了直 接访问的能力。
9.1.1
iSCSI 的概念
iSCSI(互联网小型计算机系统接口)是一种在 Internet 协议网络上,特别是以太网上进行 数据块传输的标准。它是由 Cisco 和 IBM 两家发起的,并且得到了 IP 存储技术拥护者的大力支 持。是一个供硬件设备使用的可以在 IP 协议上层运行的 SCSI 指令集。简单地说,iSCSI 可以实 现在 IP 网络上运行 SCSI 协议,使其能够在诸如高速千兆以太网上进行路由选择。 SCSI(小型计算机系统接口)是以一种广泛使用的连接硬盘和计算机的技术标准,iSCSI 这种技术则是将该技术应用到网络连接上,对于中小企业的存储网络而言,iSCSI 技术的性价比 要高于基于光纤的产品。iSCSI 是基于 IP 协议的技术标准,是允许网络在 TCP/IP 协议上传输 SCSI 命令的新协议,实现了 SCSI 和 TCP/IP 协议的连接,该技术允许用户通过 TCP/IP 网络来 构建存储区域网(SAN)。而在 iSCSI 技术出现之前,构建存储区域网的唯一技术是利用光纤通
98
道(Fiber Channel),该标准制定于 20 世纪 90 年代初期,但是其架构需要高昂的建设成本,远 非一般企业所能够承受。iSCSI 技术的出现对于以局域网为网络环境的用户来说,它只需要不多 的投资,就可以方便、快捷地对信息和数据进行交互式传输和管理。相对于以往的网络接入存 储,iSCSI 的出现解决了开放性、容量、传输速度、兼容性、安全性等问题,其优越的性能使其 自发布之日始便受到市场的关注与青睐。
9.1.2
iSCSI 的工作流程
iSCSI 协议就是一个在网络上封包和解包的过程,在网络的一端,数据包被封装成包括 TCP/IP 头、iSCSI 识别包和 SCSI 数据三部分内容,传输到网络另一端时,这三部分内容分别被 顺序地解开。
iSCSI 系统由一块 SCSI 卡发出一个 SCSI 命令,命令被封装到第四层的信息包中并发送。 接收方从信息包中抽取 SCSI 命令并执行,然后把返回的 SCSI 命令和数据封装到 IP 信息包中, 并将它们发回到发送方。系统抽取数据或命令,并把它们传回 SCSI 子系统。所有这一切的完成 都无需用户干预,而且对终端用户是完全透明的。 为了保证安全,iSCSI 有自己的上网登录操作顺序。在它们首次运行的时候,启动器 (initiator)设备将登录到目标设备中。任何一个接收到没有执行登录过程的启动器的 iSCSI PDU (iSCSI Protocol Data Units,iSCSI 协议数据单元)目标设备都将生成一个协议错误,而且目标 设备也会关闭连接。在关闭会话之前,目标设备可能发送回一个被驳回的 iSCSI PDU。这种安 全性是基本的,因为它只保护了通信的启动,却没有在每个信息包的基础上提供安全性。还有 其他的安全方法,包括利用 IPsec。在控制和数据两种信息包中,IPsec 可以提供整体性,实施 再次(replay)保护和确认证明,它也为各个信息包提供加密。
9.1.3
iSCSI 标准的制定情况
建立符合行业标准的通过 IP 网络传输存储信息的需求和机会同时存在,但问题是如何建立 这个标准并且使之成为行业的统一标准。 Bechtolsheim 及其小组和 IBM 建立了合作伙伴关系,共同为新协议起草了一个标准,称为 iSCSI(互联网 SCSI),该标准允许在 TCP/IP 协议上传输 SCSI 命令。2000 年 2 月,该小组将此 草案作为互联网标准草案提交给互联网工程任务组(IETF)。同年 3 月,IETF 会议对该草案进
99
行了讨论,并决定成立一个 IETF 工作组,负责制订通过 IP 传输存储信息的技术。截至 2000 年 8 月,IETF 小组的成员已增加到 500 人,代表着 200 家公司或组织,几乎包括了所有的存储器、 网络部件及系统供应商。 目前,关于 iSCSI 的标准制订已经进入最后阶段,估计明年初正式标准就将推出。IETF 日 前宣布,它已完成了 iSCSI 协议的工作,现在将为它分配征求意见编号。这项规范规定了软件 在内联网上传送 SCSI 包和在长距离上管理存储时,如何处理 SCSI 数据包以及如何在 TCP/IP 命令中封装它们。
9.1.4
iSCSI 与 FC(光纤通道)的比较
网络存储主要由三大部分组成:服务器(host)、交换(switch)和存储设备(target)。在这 三者中,交换是很关键的。网络存储的交换方式有两种,一种是光纤通道(FC),另外一种就 是 iSCSI。 从数据传输的角度来看,光纤通道和 iSCSI 有很大的不同:光纤通道的传输采用其 FCP 协 议,而 iSCSI 采用 Internet 上现有的 TCP 协议。FCP 协议最初是按照光纤通道网络的高级协议 设计的,它紧密地与低级网络功能集成在一起工作。而 iSCSI 在开发时采用现有的由 TCP 所提 供的受保护的传输机制。所以由于采用不同的机制,iSCSI 和光纤通道之间是不可能兼容的。 与光纤通道相比,iSCSI 有其自身的诸多优势,主要表现在 iSCSI 更加经济。成本的节约可 体现在以下几个方面:(1)在一般的数据和 SAN 网络之间存在的公用技术可使培训费
用降低,而且也不必设立单独的岗位职员,这两者都可使成本降低;而且以太网大量的安 装基础也可使价格降低。(2)iSCSI 可利用现有的、容易理解的 TCP/IP 基础设施来构筑 SAN, 随着在 QoS 和安全方面的进步,在存储与现有的基础设施之间的共享表明,在硬件、培训、实 施等几个方面都有机会实现可观的成本节约。(3)随着千兆以太网的实现,用户将可得到传输速 率为 1Gbps 的存储网络,而不需改变现有的基础设施。 FC(Fibre Channel)的安装基础很少,理解其技术的人也不多,而且它很昂贵。FC 在同等 速度下可提供稍好一些的性能,但是这一点并不能弥补其在实现时所需的高额费用和额外的培 训费用所构成的高成本。近期,在以太网的速度超过 FC 以前,FC 可以暂时保持其在 SAN 技 术领域的优势地位,但这也仅限于在 iSCSI 成气候之前的一段时间内。 但是,iSCSI 在三到五年内不会取代 Fibre Channel。首先,TCP/IP 网络虽说有许多值得称道
100
的地方,但它在传输数据块时的致命问题至今在技术上还没有突破性进展。虽然 Fibre Channel 在标准、远距离连接、成本等方面有待进一步改进和提高,但它在区域性 SAN 领域已经取得了 显著成效。其产品和技术正逐步成熟。所以,就目前来看,如果用户需要大容量、高速块级数 据存取,Fibre Channel 还是唯一的选择。但随着 iSCSI 的成熟,它将为 Fibre Channel 分担存储 市场,加之,Brocade、Intel、Cisco 等各领域厂商的努力,也必将促进 Fibre Channel 和 iSCSI 技术的融合,取长补短,共同发展
9.1.5
iSCSI 的优势与局限性
iSCSI 技术具有如下优势: (1)iSCSI 的基础是传统的以太网和 Internet,近 20 年来,网络技术的迅猛发展使传统网 络无处不在,iSCSI 有很好的基础,同时能大大减少总体拥有成本。 (2)随着技术的进步,IP 网络的带宽发展相当迅速,1Gbps 以太网早已大量占据市场, 10Gbps 以太网也已整装待发。而且,该协议由包括 IBM、Cisco、Intel、Brocade、Adaptec 等业 界巨头的支持,同时,一批新型厂商也竞相参与,如 Nishan System、SAN Valley、CNT、Pirus、 3Ware 等。 (3)在技术实施方面,iSCSI 以稳健、有效的 IP 及以太网架构为骨干,使忍受性大大增加。 另外,简单的管理和布署也是 iSCSI 让业界心动的一个原因,因为传统网络厂商已经培养了很 多的专业网络人才,不需要投入培训,就可以轻松拥有专业的 iSCSI 人才。 (4)iSCSI 是基于 IP 协议的技术标准,它实现了 SCSI 和 TCP/IP 协议的连接,对于以局域 网为网络环境的用户,只需要不多的投资,就可以方便、快捷地对信息和数据进行交互式传输 及管理。 (5)完全解决数据远程复制(Data Replication)及灾难恢复(Disaster Recover)的难题。 安全性方面,以往的 FC-SAN 及 DAS 大都是在管制的环境内,安全要求相对较低。iSCSI 却将 这种概念颠倒过来,把存储的数据在互联网内流通,令用户感到需要提升安全要求。所以,iSCSI 已内建支持 IPSEL 的机制,并且在芯片层面执行有关指令,确保安全性。
101
但是,存储工程师在畅谈 iSCSI 前景的时候,也需要实事求是地分析目前的形势和发展 方向。实际上,到目前为止,还没有一个成熟的产品来展示 iSCSI 的魅力,它还没有大面积 商业化应用。而存储网络面临的诸多问题,iSCSI 并非都能迎刃而解,如距离和带宽之间的 矛盾。虽然,iSCSI 满足了长距离连接的需求,方便了广域存储的连接,但是,IP 的带宽仍 然是其无法解决的问题。虽然 IP 网络发展迅速,1Gbps 的网络逐渐普及,但从广域网来说, 带宽仍然相当昂贵。即便可以利用 1Gbps 的带宽进行 iSCSI 数据传输,速度仍不理想。而且, IP 网络的效率和延迟都是存储数据传输的巨大障碍。
9.1.6
iSCSI 技术的应用
当多数企业由于 Fiber Channel 的高成本而对 SAN 敬而远之时,iSCSI 技术的出现,一 下子拉近了企业与 SAN 之间的距离。目前,大多数中小企业都以 TCP/IP 协议为基础建立了 网络环境。对于他们来说,投入巨资利用 FC 建设 SAN 系统既不现实,也无必要。但在信 息时代,信息的采集与处理将成为决定企业生存与发展的关键,面对海量数据,许多企业已 感到力不从心。iSCSI 的实现可以在 IP 网络上应用 SCSI 的功能,充分利用了现有 IP 网络的 成熟性和普及性等优势,允许用户通过 TCP/IP 网络来构建存储区域网(SAN),为众多中小 企业对经济合理和便于管理的存储设备提供了直接访问的能力。除此之外,iSCSI 技术主要 用于解决远程存储问题,具体如下:
9.1.6.1
实现异地间的数据交换
许多公司利用光纤交换技术实施了自己的本地存储区域网(SAN),但如果企业有异地 存储要求时,如何完成异地间的数据交换则成为问题。设想一下,一家公司在相隔很远的地 方有分公司,而且两地各有自己的基于光纤的存储网络,那么,如何将两个网络连接起来? 用光纤吗?工程巨大,就是采取租用形式,其费用也相当高昂。存储工程师知道,iSCSI 是 基于 IP 协议的,它能容纳所有 IP 协议网中的部件,如果将 FC 转换成 IP 协议下的数据,这 些数据就可以通过传统 IP 协议网传输,解决了远程传输的问题,而到达另一端时再将 IP 协 议的数据转换到当地的基于 FC 的存储网络,这样通过 iSCSI 使两个光纤网络能够在低成本 投入的前提下连接起来,实现异地间的数据交换。
9.1.6.2
实现异地间的数据备份及容灾
通过 iSCSI,用户可以穿越标准的以太网线缆在任何地方创建实际的 SAN 网络,而不
102
再必须要求专门的光纤通道网络在服务器和存储设备之间传送数据。iSCSI 让远程镜像和备 份成为可能,因为没有了光纤通道的距离限制,使用标准的 TCP/IP 协议,数据可以在以太 网上进行传输。而从数据传输的角度看,目前多数 iSCSI 的网络传输带宽为千兆即 1Gbit, 如果实现全双工能够达到 2Gbit,第二代产品能够达到 2Gbit 带宽,在未来第三代通用 iSCSI 标准中,带宽将达到 10Gb,也就是说,采用 iSCSI 构建远程异地容灾系统已不存在任何问 题。
9.1.7
iSCSI 的发展概况
iSCSI 是由 Cisco 和 IBM 两家发起的,目前 IETF(Internet Engineering Task Force)正在 制订的标准规格。 IBM 以及美国思科系统公司等部分供应商正在供货对应 iSCSI 的路由器和存贮设备。去 年 IBM 发布了 IP Storage 200I 型存储设备,将其标榜为在市场上出现的第一种成熟的 iSCSI 硬件。iSCSI 能使现有的以太网在数据存储方面更加有用,而且 IBM 也因首先推出符合该标 准的产品而赢得了赞扬。 Cisco 对 iSCSI 的支持至关重要。iSCSI 要想成为沟通 FC 存储网和 IP 网的桥梁,必须 依赖在传统 IP 网中占据霸主地位的 Cisco 支持。在具体产品方面,去年 10 月,他们就推出 了 SN 5420 存储路由器。今年 5 月,Cisco 公司又宣布推出了 iSCSI/光纤通道存储路由器 ——Cisco SN 5428。这一存储路由器配置两个千兆以太网端口、八个光纤通道端口和三个 管理端口。由于支持 IP 网络上的光纤通道、千兆以太网和 iSCSI 协议,中小企业可方便利 用现有设施建立 SAN。 另外,美国 Adaptec 和美国 Emulex 等目前正在开发配备面向 iSCSI 的卸载引擎的以太 网适配器。 英特尔于 2 月 5 日面向 iSCSI(SCSI over IP)推出配备专用处理器的千兆位以太网用适 配器“PRO/1000 T IP Storage Adapter”,能够实现 iSCSI 包卸载,并通过基于 Intel Xscale 微架 构的板上处理器获得较低的 CPU 利用率,并已开始批量生产。Intel 提出了 iSCSI 发展的三 个阶段。第一个阶段是在 2002 年第一季度实现 TTM(Time To Market),也就是要大范围地 推动厂商尤其是 OEM 合作伙伴对 iSCSI 的接受过程;第二个阶段是在 2003 年第一季度之 前,实现高性能和全功能的 iSCSI /LAN 解决方案,提供 iSCSI 卸载(offload)或 TCP/IP 卸 载;第三阶段,在 2004 年,通过技术研发不断降低 iSCSI 成本,提高性能以推动产量,同 时,通过硅技术允许嵌入式的解决方案,把 iSCSI 技术浓缩成一个晶片。 尽管 iSCSI 的相关产品已经上市,但 iSCSI 规范还没有得到 IETF 的批准,在规范批准
103
之前,还要进行相关的修改,因此不可能保证上市产品完全遵从标准。然而,如果厂商正在 开发的 iSCSI 卡能保证兼容,不管最后的规范如何,还是可以安全使用的。存储工程师相信, 随着新技术标准的制定,iSCSI 必将成为存储领域内的核心技术,其低廉、便捷、开放、安 全、标准等众多优异品质在未来必将得到充分的完善与发展,从而成为一个充满生机与活力 的发展方向,为广大的用户提供最为完善的网络存储服务。
9.2
IP SAN 存储方案举例
9.2.1 用户现状与需求分析 9.2.1.1
用户现状
用户主要开发针对用户各种彩色打印机、传真机、复合机和各种数码影像设备产品的系 统软件,目前有 10 台不同种类的服务器,每台服务器上都配置有硬盘,操作系统有 Linux (RedHat 9.0)、Windows2000、Windows2003,每台服务器都承担着各自不同的应用,Linux 服务器是一台邮件服务器,Windows2000 服务器运行的是 SQL Server2000 数据库,用户目 前的网络拓朴结构如图所示:
图9-1
用户现状
104
9.2.1.2
需求分析
用户的环境复杂,应用数据量大,应用数据增长速度也快,必须利用先进的 IP SAN 网 络存储系统来解决目前存在的问题。因此系统要求: z
系统需要集中管理、简单操作
用户目前有多种产品的系统软件代码,而且是多服务器、多操作系统、多数据库的复杂 应用环境,因此要求为这些应用提供存储资源的存储系统必须集中管理,而且操作要简单方 便。 z
必须满足日益增长的存储需求
用户目前大约有 10 台服务器,每台服务器都承担着各自不同的应用,每个应用每时每 刻都会产生大批量的数据,因此如何解决这些数据的海量存储是系统首先要考虑的问题。 z
系统必须提供块级服务
用户目前主要是数据库的应用,比如 SQL Server2000,Oracle 数据库等,而且服务器操 作系统有 Unix、Windows2000、Windows2003 等,这就要求存储系统必须提供块级服务,以 满足不用操作系统及数据库数据的存储需求。 z
系统扩展性比较好
用户随着业务的扩大,存储资源需求会越来越多,因此要求系统必须有很好的扩展性, 以适应未来 5-10 年的业务需求。 z
系统有数据备份功能
用户目前有邮件和数据库应用,所有的应用数据需要做定时的自动备份,因些需要系统 必须能对 Active Directory、SQL Server 数据库、Email 数据进行自动的全备份和增值备 份,数据出错时能快速方便的恢复数据。 z
系统有容灾功能
用户的数据十分重要,而且在以后的时间里可能会对两个办公区域间做异地容灾,因此 需要系统必须有容灾功能,以满足系统日后新的需求。
9.2.2
系统设计原则
鉴于 IP SAN 的发展趋势,对构建 IP SAN 系统应遵循以下原则:
105
z
先进性
系统必须采用的是先进的技术,先进的产品,遵循国际标准和国内外有关的规范要求; 符合计算机、网络通讯技术和网络存储技术的最新发展潮流,并且是应用成熟的系统。 z
实用性
系统设计必须符合实际要求,针对实际应用的特点,选择相应用的软、硬件系统;系统 配置既要强调先进性也要注重实用性,还应注意系统配置的经济效益,以达到综合平衡。 z
集成性
系统选择的产品必须高度集成,体积小,重量轻,移动方便,功耗低;而且在高度集成 小型化前提下,应具有多种功能。 z
可扩展性
系统设计要考虑今后发展,留有充分的扩充余地;系统要能满足不同协议的网络扩充和 不同厂家不同产品的扩充;系统既应用于海量存储还提供本地和异地数据容灾。 z
灵活性
系统要根据实际需要灵活定制不同的网络接口(比如 FC 或 IP)和不同的存储资源模块 (比如 SCSI、iSCSI Target、FCP); z
安全性
系统具有高度的安全性,比如访问存储资源的身份认证,系统管理员的操作认证,系统 本身数据的备份等等; z
可靠性
系统具备在规定条件和时间内完成用户所要求的功能的能力,能长期稳定的工作;结构 简单,连接点少,可靠性高;对工作条件和工作环境要求较低;系统启动快,系统掉电后再 来电或网络传输中断后再恢复正常,系统恢复工作迅速;故障率低,维护维修方便; z
经济性
综合考虑系统的性能和价格,性价比在同类系统和条件下达到最优,经济性应包括:系 统本身的价格(包括系统、技术服务和培训);系统运行后经济效益预算的可能收益;对系 统实施现场的特殊要求所需的费用;对系统集成所需的有关软件和硬件等的开发费用;系统 的易扩展升级等。
106
9.2.3 9.2.3.1
技术方案 方案描述
本方案将采用 IP SAN 存储服务管理器做为整个系统的核心部件,其后直接接到磁盘阵 柜和磁带机,然后通过千兆交换机为所有的服务器提供高速、可靠的存储服务;备份系统本 方案将采用 IP SAN 存储备份系统软件做 D-D、D-T 或 D-D-T 数据备份,将其中的一台服务 器安装 CommServer 做为备份服务器,其它要备份的服务器安装 DataAgent,系统将根据用 户的备份策略自动的将各服务器的应用数据备份到 IP SAN 中。
9.2.3.2 拓朴结构图
图
9-2
IPSAN 拓扑结构图
在本方案中,所用设备的主要功能描述如下: IP SAN 存储管理服务器是实现存储子系统功能的主要设备,它实现对存储资源的整合 与优化、数据保护等功能。IP SAN 存储服务器集中管理磁盘阵列,把磁盘阵列中的所有单 个磁盘整合并虚拟成多个逻辑卷,供服务器使用,并通过 IP SAN 存储服务器的管理软件对
107
这些卷进行直观化分配、管理:允许哪个服务器使用哪个卷、具有怎样的使用权限等。 备份服务器统一集中管理备份及恢复操作的各项策略。 磁盘阵列柜和磁带机为整个存储网络提供存储资源。 千兆交换机为 IP SAN 存储服务器和服务器之间提供千千兆高速网络传输带宽。
9.2.3.3 方案的特点 对异构存储资源进行虚拟化和集中化管理:IP SAN 存储管理服务器集成了数据存储系 统,实现存储资源的整合与虚拟化,实现资源共享;它能对不同厂商的存储产品、不同存储 协议(SCSI,iSCSI Target,FCP)的产品进行异构整合管理,并可虚拟为逻辑上的存储池, 将支持不同存储协议的存储资源整合在一起,可确保用户的所有重要数据获得统一的管理, 以此为企业营造出一个安全的、集中的、易于管理的存储环境,在一个传统的以服务器基础 架构下,存储内容和存储设备均是联接本地服务器之上;在新模式下,存储内容和存储设备 被集中管理,存储空间被整个企业共享,使其不局限在某个应用程序或服务器上,更有利于 用户对存储资源进行统一的、专业化的管理和维护,使得存储资源的可用性大大提高。 动态卷扩容:系统可以通过 IP SAN 存储服务器将分配给某台服务器的卷做动态扩容, 而卷上原有的数据将不改变。 简单化了系统管理:由于采用基于 IE 的用户管理界面,使存储网络实现智能化、简单 化和集中化的管理,同时,由于基于 IP 技术,客户不需要专门培训――本系统从安装到正 式上线,客户在 20 分钟内即掌握了本系统维护技术。 可扩展性:用户可根据需求来逐渐增加存储的容量(Storage Concentrator 的存储容 量可以从 1TB 增加到 10.5T B),大量减少企业前期对存储资源的投资;另外 IP SAN 存储管 理服务器最大限度地优化企业已有的存储资源和网络资源,扩展了客户未来对存储系统的升 级改造的可选择性。 先进的 IP SAN 结构:系统从网络结构上是一个典型的 SAN 存储架构,它是在传统的 SAN 结构中,以 IP 协议替代光纤通道协议,来构建结构上与 LAN 隔离,而技术上与 LAN 一致的 新型 SAN 系统——IP SAN。 合成全备份技术:支持 OnePath Restor 恢复和数据合并模式(将增量备份和全备份合 并成全备份),减少了全备份的时间,加快了恢复的速度(不必恢复多次,比其他应用恢复
108
速度快 1 倍以上)这是本系统特有的功能。 备份任务的断点续传技术:支持备份任务的断点续传,这就保证了即使备份期间发生故 障,也能从该故障点继续备份,而不必重新备份。 SnapShot 备份和 QR 快速恢复:SnapShot 备份和 QR 快速恢复可以不必重新安装应用, 就可重启应用,加快应用恢复速度。 AD 和 Exchange 的记录级备份:AD 和 Exchange 的记录级备份,这样能对单个属性和信 息进行备份和恢复,这样如果某些内容不对,只要恢复部分数据即可,而不必进行所有数据 的恢复,加快了恢复速度这也是本系统特有的功能。 D-D、D-T 或 D-D-T 技术:IP SAN 存储服务器将通常不间断的备份数据流分成两个阶段: 第一阶段是将数据从需要备份的服务器备份到 IP SAN 存储服务器的逻辑卷中;第二阶段是 将数据从 IP SAN 存储服务器的逻辑卷备份到磁带库中。多个需要数据备份的服务器可以同 时启动第一阶段的备份过程,然后备份服务器在第二阶段中将数据逐一从 IP SAN 存储服务 器的逻辑卷备份到指定的磁带库中。因此,第一阶段是一个并行的进程,第二阶段是一个顺 序的进程,它将极大地缩短数据全备份所需时间。
9.2.4
方案的优势
经过对客户的实际需求的分析,并从用户的实际情况出发,同时考虑到今后系统的升级 问题,决定采用以上解决方案。该方案具有以下优势: z
一举三得的解决方案
与基于 FC SAN 备份的比较,智能化的高速海量存储系统为用户提供了足够可管理的数 据存储空间:较高的外部共享磁盘容量最大可达到几十个 TB,根据存储数据量的需求,可 配置可用容量,供数据存储使用,随着数据量增大,将来可以扩充磁盘数目以增加容量。 z
数据安全性得到了充分的保障:
IP SAN 数据访问的安全性 。IP SAN 存储服务器存储管理服务器提供了二级数据存取 安全(CHAP) ,一是访问主机的安全,二是主机访问卷的安全,这就从根本上保证了 SAN 中 数据访问的安全性。 数据本身的安全。磁盘阵列柜支持多种 RAID 等级:0、1、0+1、3、5,在多数情况下, Arena 公司推荐使用 RAID5,因为 RAID5 的硬盘使用率较高,是安全性较高的 RAID 等级。除 了 RAID 等级上的保护之外,还可以提供多个全局热备份磁盘,一旦阵列中的任何一块磁盘
109
出现问题,全局热备份磁盘都会立即工作,达到保护数据的目的。 阵列控制信息的存储。一般的阵列其阵列配置信息(包括硬盘分组、RAID 划分等信息), 都存放在阵列控制器上,一旦控制器出现问题,那么存放在控制器上的配置信息就会完全丢 失,即使更换新的控制器控制信息也无法挽回,那么硬盘上的数据就会丢失,给用户造成无 法估量的损失。Arena BT1115 磁盘阵列的配置信息可以存放在硬盘上,这样即使控制器出 现问题也不会影响硬盘上的数据,而且当 RAID 组中的一块硬盘出现问题,更换新的硬盘后 配置信息会自动复制在新硬盘上,确保了数据的完整性和安全性。一但控制器有问题,可以 更换新的控制器而数据不会丢失。 系统具有高输入/输出性能 :在普通的数据库、邮件系统和文件应用中,磁盘阵列的输 入/输出性能一般是 8-10MB/s ,而 IP SAN 存储服务器可以将整个系统的输入/输出性能提 高 6 倍以上。 系统具有高可靠性:系统可以用两台 IP SAN 存储服务器做双机备份,当其中一台 IP SAN 存储服务器出故障时,另一台就会自动承担故障服务器的工作负载,而无须操作人员介入。 系统支持磁盘-磁盘-磁带库的备份:IP SAN 存储服务器将通常不间断的备份数据流分 成两个阶段:第一阶段是将数据从需要备份的服务器备份到 IP SAN 存储服务器的逻辑卷中; 第二阶段是将数据从 IP SAN 存储服务器的逻辑卷备份到磁带库中。多个需要数据备份的服 务器可以同时启动第一阶段的备份过程,然后备份服务器在第二阶段中将数据逐一从 IP SAN 存储服务器的逻辑卷备份到指定的磁带库中。因此,第一阶段是一个并行的进程,第二阶段 是一个顺序的进程,它将极大地缩短数据全备份所需时间。 降低了分布应用数据处理的管理成本:由于目前需要将每个业务子系统都使用 SAN 中的 集中存储设备,因此可减少每个系统都需要工程师进行管理,从而减少了管理成本和管理工 作量。
110
图 9-3
容灾系统示意图
系统可以实现本地、异地数据容灾:IP SAN 存储服务器存储管理服务器提供了卷拷贝、 卷复制、卷镜像以及快照等数据容灾手段,不需要第三方软件就能为系统数据构建高可靠性 的数据容灾系统。
9.2.5 系统建设的下一步设想 一个好的系统设计,往往体现在它能否适应客户将来新的需求,在不久的将来,用户 可 能会在两个办公区域之间做数据容灾,拓朴结构图如图9-3所示: 从上图不难看出,办公区一就是现在的系统,办公区二是现有系统的扩展,这就保证了 系统的升级是在原有系统不变的情况的下进行的,不仅操作十分方便而且节省了成本。
9.2.6
解决方案介绍
IP SAN 存储管理服务器 本方案使用的 IP SAN 存储管理服务器它是一个企业级的、完全基于行业标准的 IP 网 络存储系统(IP SAN)。它为企业建立集中化存贮网络系统提供了一种优秀的、高效率的手段。 表
9-1
IP SAN
存储管理器
IP SAN 存储管理服务器规格 111
协议和标准
系统端口
z
iSCSI (IETF Version 0.20)
z
IP (RFC 791, 894, 1092)
z
TCP (RFC 793)
z
ICMP (RFC 792, 950, 1256)
z
SCSI-2 and SCSI-3
z
Fibre Channel
z
一个以太网卡端口 (千兆以太网)
z
最多6个 I/O
z
1 或2 iSCSI (Gigabit Ethernet)端口
z
1、 3或5 个SCSI端口
z
1、 2、 3或4 Fibre
z
并行 SCSI: 最多 15 个
z
FC: 最大127个
z
卷大小: 最小 1 GB,最大 2 TB
z
最大的卷数(session): 128*个卷
z
Telnet (RFC 854)
z
HTML
端口:
Channel (2 Gbps)
存储端口数量 逻辑卷管理 管理协议 IEEE标准
可选端口
尺寸 前面板
z
z
HTTPS
z
IEEE 802.3 (10/100 Ethernet)
z
IEEE 802.3z (Gigabit Ethernet)
z
用户可以从下列配置中最多选择两种端口:
z
单工 Fibre Channel 卡 (最多2块卡)
z
双工 Fibre Channel 卡 (最多2块卡)
z
双工并联式样的SCSI卡 (最多2块卡)
z
可选千兆网卡(一块)
z
宽447 mm x 长685 mm x高 48 mm
z
开关: 电源
z
发光二级管: 系统状况和电源指示
重量
15.9 kg
电源
110/260 VAC, 7A/4A, 60/50Hz
IP SAN 备份系统
本方案的 IP SAN 备份系统采用了一种全新的体系结构,专为操作简单、无缝连接和可 伸缩性的存储方案而设计,以应对 21 世纪数据存储和管理需求。通过对传统数据管理中分 离功能的紧密整合,利用完整的存储栈,从应用到设备,进行完整的、透明的管理,以自动 操作的方式提供应用数据的存取和可用性。数据的索引、管理和传送都是建立公共技术引擎 CTE 上的(CommVault Common Technology Engine) ,该 IP SAN 存储备份系统平台是统一 进行数据保护、高可用性、迁移、归档、存储资源管理/SAN 管理的基础,能用单一的、自
112
动的平台来管理全局的数据、目录和索引。CTE 是个底层的软件,奠定了 CommVault 所有 产品能执行元策略(Meta-Policy)的独特能力,通过 CTE 能把操作命令的特点转化成可控 制的软件级或模块级的策略。 该 IP SAN 存储备份系统平台包含了一系列可配置的软件模块,用来组织和实施真正的 数据集中策略,来管理企业的信息存取,该 IP SAN 存储备份系统软件模块包括: z
数据备份和恢复(Backup & Recovery);
z
数据迁移或分级存储(HSM)(DataMigrator);
z
依法归档(Data Archiver);
z
应用的高可用性/灾难恢复(Quick Recovery);
z
存储资源管理(Storage Resource Management);
z
SAN、网络和介质管理(SAN Management);
z
集中统一管理以上所有模块。
图 9-4
IP SAN 存储管理软件构造
IP SAN 备份系统能创建基于数据特性和优先级的智能策略,在 NAS、SAN、DAS 以 及 LAN/WAN 环境中对存储进行统一的管理和使用。该 IP SAN 存储备份系统能让 IT 管理 员创建用于保护和存储数据的策略,这些策略是基于存储模式、数据恢复和保留的优先级, 利用统一的易于使用和管理的功能组件,直接控制存储设备每天的价值和保护数据的费用, 从而改进公司的成本底线。该 IP SAN 存储备份系统的优势在于: 灵活性、可扩充性、可靠性和易用性:提供了智能的、模块化的方法,让用户能实施 单个的解决方案,或在需要时继续添加所需的模块,能在时间、效果、培训和费用方面来分
113
步实施。 用逻辑的图视来对应所有存储资源的物理图视:用该 IP SAN 存储备份系统,管理员能 在统一的浏览控制台上快速、方便的进行操作和数据存取,而不需要知道数据具体所在的物 理位置。 多种级别的策略驱动或用户直接管理数据:利用自动的关键功能进行数据传送和数据 管理间的交互,该 IP SAN 存储备份系统神奇地减少了必须的管理员数量,其灵活度可由场 地和特殊的数据需求来定。 与应用高度集成:客户端的模块提供了无与伦比的数据管理功能,针对关键的文件系统 和应用数据,如:UNIX、Windows、Linux、NetWare、Oracle、Exchange、Lotus Notes/Domino、 Informix、SharePoint Portal、SQL、Sybase。 可移动的、完整的“点击”界面:系统管理员能方便的、完全控制所有数据,不管他 是在当地还是在异地。 自动的交互过程:能方便到只要用一个系统客户端就能进行数据管理,功能十分强大, 能轻松应对其部门广泛分布在不同地方的企业的备份需求。 能对磁盘、磁带和光盘构成的虚拟存储池进行管理:包括磁盘阵列(具有或不具有快 照功能),具有机械手的带库,磁带驱动器分配,磁带介质生命周期的管理。 可配置的软件模块:能满足企业在发展中的不断需求。 该 IP SAN 存储备份系统平台基本架构包括了建立在单一的 CTE 上可交互的多个软件 模块,并能用统一的控制台进行管理。它包括了五个独立的软件产品:备份/恢复、数据迁 移、合法的归档、快速恢复和存储资源管理/SAN 管理,这些软件都共享公共的底层软件。 CTE 使这一切成为可能,CTE 是一个能执行“元策略”算法的底层软件,利用这个公共的 底层软件,软件服务的品质能变成可控制的软件产品级/模块级的策略。 该 IP SAN 存储备份系统包括了下面软件模块: z
QBR
(CommVault Galaxy Backup & Recovery) 完善的数据保护模块。
z
QDM
(该 IP SAN 存储备份系统 DataMigrator) 数据迁移/分级存储模块。
z
QDA (该 IP SAN 存储备份系统 DataArchiver) 合法的归档模块。
z
QR
(该 IP SAN 存储备份系统 Quick Recovery) 快照管理和应用级的高可用,
快速恢复模块,包括两个配置: QR-HA – 高可用模块用来快速恢复应用。
114
QR-DR – 灾难恢复模块用来创建远程快速恢复卷。 z
QSM
(该 IP SAN 存储备份系统 Storage Manager) 存储管理模块包括了存储资源
管理(SRM)和 SAN 网下的存储设备和网络部件的管理。 z
Q-Net
能用单一的界面对本地和异地的多个 CommCell 进行管理,并提供策略管
理、分析和跟踪二级存储、并提供统一的监控和报表等功能。
图 9-5
9.2.7
数据路径及模块结构
技术服务及培训
z 技术服务 作为专业数据存储与保护方案提供商,整个项目实施过程中,建设者必须向用户提供全 方位的技术支持服务,让用户没有后顾之忧,真正的让用户用的放心、踏实。一般来讲,具 体包括如下内容: 技术支持队伍状况 实施队伍中拥有经验丰富的数据存储专家,与技术支持团队一起为用户解决问题。 。 服务内容及模式 现场的技术服务:在项目实施的时候,派遣优秀的工程师到现场进行技术问题的处理。 在以后的维护合同期内,如果出现产品的问题,即派工程师到现场进行问题的查看和解决。 必要的技术培训:为了保障用户能很好的使用产品,在软件运行后进行必要的操作和维 护,给用户的工程师提供原厂的技术培训,在平时的时候,如果软件有什么变化,及时的给
115
用户进行随时的必要的培训。 产品和各种与相关的技术问题的 24 小时的咨询:用户可以通过电话、传真、电子邮件 的方式找工程师进行相关的咨询,工程师必将在最快的时间里对问题做出明确的答复。 项目实施过程中的技术支持 在项目实施工程中,项目实施方进行现场的安装、调试、移交测试、开通、验收。安装 工程开始前,存储工程师将提供安装技术资料和相关的技术规范。在开始进行安装工程的时 候,公司都会派出最优秀的工程师到现场进行操作。 安装:该项目的主要负责人将带领最好的工程师到现场进行安装。 调试:在软件安装以后,工程师将对软件的运行在该项目的环境中进行调试,使软件能 和好的用户的硬件和其他的软件进行很好的兼容。 移交测试:软件安装、调试完以后,交给用户的工程师,让用户的工程师在实施方工程 师的指导下进行相关的测试。如果测试没有达到要求的结果,可以再次让存储工程师的工程 师进行必要的调试,然后再进行测试。如果测试达到相应的要求,就是移交成功。 开通:实施方工程师在移交测试完以后,就要在用户的环境下,根据用户的需求,对软 件要达到的几项功能进行全部的开通,使用户能进行正常的工作。 验收:由项目的主要负责人对产品进行验收。验收完以后,签署验收合格书。此时产品 正式由用户开始使用。 软件质保期内提供的免费服务内容 对于免费服务,在这个期间,实施方的服务内容应该包括: 定时的产品培训:在产品安装前,对用户的工程师进行 产品的初级培训。在安装和验 收后,对用户的工程师进行原厂的以实验为基础的技术培训。此后一年的服务期内,定时对 用户的工程师进行产品方面的培训。 故障的及时解决:实施人员在接到用户的故障的信息后,会派遣相关的工程师以最短的 时间内进行解决。如果问题不大,通过电话、传真或者电子邮件的方式指导用户的工程师自 行解决,如果用户的工程师没有办法解决,存储工程师会马上到达现场,对问题进行分析和 解决。 质保期之后的提供的技术服务 在软件的质保期后,也就是说在一年的保修期后,即第二年后如果继续需要技术服务, 则需要签订维护合同。项目方有三级维护合同可以供选择:
116
按时收费 标准级维护合同:周一至周五,每天 8 小时 企业级维护合同:7*24 全年无休 所以存储工程师将根据所签订的维护合同的不同,提供不同的服务标准。 技术培训 为使项目能正常安装、调试、运行、维护,项目实施方应该对用户提供相应的技术培训, 使用户的技术人员对系统的原理和结构、功能、性能、安装配置调试运行、故障诊断和排除 等各个方面有一定程度的了解,使用户的技术人员能对系统进行日常维护和处理出现的简单 问题。
9.3
IP SAN 容灾及备份方案
9.3.1 需求分析 用户现有的环境拓朴图如下:
图9-6
用户现状
用户现有的系统不具备数据保护功能,在大楼内部任一台服务器或网络系统出现故障, 都会造成数据丢失,而且某一大楼出现自然灾害(火灾、水灾等),该大楼内的服务器数据 必然丢失,整个大楼的业务全部中断,这将会造成很大的损失。因此用户要求在大楼与大楼 之间做数据容灾,大楼内部做本地备份,大楼之间做异地备份,这样就从根本上保证了用户 业务数据的安全性和高可靠性。
117
带格式的: 项目符号和编号
9.3.2
方案描述
本方案的设计思想是围绕提高用户整个系统的数据安全性和高可靠性为中心,其目标 是当网络中的任意一台服务器发生故障时,系统都可以将原有数据和文件系统快速地恢复, 以保证系统的正常运行。存储工程师向用户提供三套建议方案来保护用户的数据: 方案一、区域网数据容灾 + 集中式数据备份: 本方案有两部分组成:其一,两幢大楼相互做为容灾点,以保证某一服务器或某一大 楼出现故障或自然灾害时容灾点数据接替其任务继续工作,从而保证业务的不间断进行;其 二,系统还将采用集中式数据备份,即将采用一台备份服务器来集中管理两个大楼内部及大 楼之间的数据备份。 方案二、区域网数据容灾 + 交互式数据备份: 两幢大楼相互做为容灾点,并且采用相互式数据备份,就是在两幢大楼各设立一台备 份服务器来管理两个大楼内部及大楼之间的数据备份并且两台备份服务器相互备份,以保证 当一台备份服务器出现故障,另一台备份服务器能接管其所有的备份任务。 方案三、远程交互式数据备份或远程集中式数据备份: 在本方案中,两个容灾点之间是通过广域网来连接的。只要容灾点每秒种的数据变化 量不超过两个容灾点间的网络带宽,就可以通过远程交互式数据备份或远程集中式数据备份 来达到数据容灾的目的。这样,当一个容灾点的数据出现问题时,可以通过另一个容灾点的 数据来恢复。
9.3.2.1
区域网数据容灾
区域网数据容灾是两个方案的基本模块:利用两台 IP SAN 网络存储服务器,在两幢 大楼中分别构建 IP SAN 存储网,每台 IP SAN 网络存储服务器分别配置 1T 的的存储资源并 虚拟成多个卷分配给每台服务器使用,然后利用 IP SAN 网络存储服务器自带的数据同步复 制功能将一台 IP SAN 网络存储服务器的虚拟卷与另一台 IP SAN 网络存储服务器的虚拟卷 做实时同步复制,以实现两幢楼间的数据容灾。这样当其中一台 IP SAN 网络存储服务器的 虚拟卷出现问题时,用于同步的另一台 IP SAN 网络存储服务器上的容灾卷可以接替故障的 卷继续工作。 z
拓朴结构
118
拓朴结构图如下(图9-7)所示: 在本方案中,所用设备的主要功能描述如下: 存储管理服务器 IP SAN 网络存储服务器是实现存储与容灾系统的主要设备,它实现 对存储资源的整合与优化、数据同步复制等功能。IP SAN 网络存储服务器集中管理磁盘阵 列,把磁盘阵列中的所有单个磁盘整合并虚拟成多个逻辑卷,供服务器使用,并通过 IP SAN
图9-7
IP SAN 容灾实施拓扑图
网络存储服务器的管理软件对这些卷进行直观化分配、管理――允许哪个服务器使用哪个 卷、具有怎样的使用权限等;IP SAN 网络存储服务器同步复制功能,可以将一台 IP SAN 网 络存储服务器的虚拟卷与另一台 IP SAN 网络存储服务器的虚拟卷做实时同步复制,当主卷 失败时,镜像卷能自动接替主卷继续工作。 SCSI 磁盘阵列柜为整个存储网络提供存储资源: 首先将分布于各个服务器内部的 SCSI 磁盘集中插入该磁盘柜;其次,将它直接联接到 IP SAN 网络存储服务器,通过 IP SAN 网 络存储服务器将集中的存储介质虚拟成一个个的卷分配给每一台服务器使用。系统在设计时 将磁盘阵列中 1T 的 SCSI 硬盘做 RAID 5,以保护数据的可靠性。 千兆交换机为 IP SAN 网络存储服务器和服务器之间及两幢楼之间的 IP SAN 网络存储 服务器提供千兆高速网络传输带宽,以保证系统高速可靠的运行。 z
技术特点
先进的 IP SAN 结构:系统从网络结构上是一个典型的 SAN 存储架构,它是在传统的
119
SAN 结构中,以 IP 协议替代光纤通道协议,来构建结构上与 LAN 隔离,而技术上与 LAN 一致的新型 SAN 系统——IP SAN。 容灾技术实现了数据的高可靠性:IP SAN 网络存储服务器存储管理服务器提供了卷拷 贝、卷复制、卷镜像以及快照等数据容灾手段,不需要第三方软件就能为系统数据构建高可 靠性的数据容灾系统。 数据安全性得到了充分的保障: IP SAN 数据访问的安全性 。IP SAN 网络存储服务器存储管理服务器提供了二级数据存 取安全(CHAP),一是访问主机的安全,二是主机访问卷的安全,这就从根本上保证了 SAN 中数据访问的安全性。 数据本身的安全。SCSI 磁盘阵列柜 RAID5 是安全性较高的 RAID 等级。除了 RAID 等 级上的保护之外,还可以提供多个全局热备份磁盘,一旦阵列中的任何一块磁盘出现问题, 全局热备份磁盘都会立即工作,达到保护数据的目的。 阵列控制信息的存储。一般的阵列其阵列配置信息(包括硬盘分组、RAID 划分等信息), 都存放在阵列控制器上,一旦控制器出现问题,那么存放在控制器上的配置信息就会完全丢 失,即使更换新的控制器控制信息也无法挽回,那么硬盘上的数据就会丢失,给用户造成无 法估量的损失。系统采用磁盘阵列的配置信息可以存放在硬盘上,这样即使控制器出现问题 也不会影响硬盘上的数据,而且当 RAID 组中的一块硬盘出现问题,更换新的硬盘后配置信 息会自动复制在新硬盘上,确保了数据的完整性和安全性。一但控制器有问题,可以更换新 的控制器而数据不会丢失。 成熟先进的设备保证系统的高性能:通过 IP SAN 网络存储服务器整合、优化后的磁盘 阵列在每条与交换机连接的千兆网线上能提供很高的数据块的持续读写速度,结合 IP SAN 网络存储服务器自动动态负载均衡的功能,由 2 条与交换机连接的千兆网线可以对外提供 2 倍的高速的数据持续读写的带宽。这样的高性能,是存储系统能够提供全天候稳定工作状态 的先决条件。 智能化的高速海量存储系统为用户提供了足够可管理的数据存储空间:较高的外部共享 磁盘容量最大可达到几十个 TB,根据存储数据量的需求,可配置可用容量,供数据存储使用, 随着数据量增大,将来可以扩充磁盘数目以增加容量。 对异构存储资源进行虚拟化和集中化管理:IP SAN 存储管理服务器集成了数据存储系 统,实现存储资源的整合与虚拟化,实现资源共享;它能对不同厂商的存储产品、不同存储
120
协议(SCSI,iSCSI Target,FCP)的产品进行异构整合管理。IP SAN 存储管理服务器最大限度 地优化图书馆已有的存储资源和网络资源,扩展了客户未来对存储系统的升级改造的可选择 性。 简单化了系统管理:由于采用基于 IE 的用户管理界面,使存储网络实现智能化、简单 化和集中化的管理,同时,由于基于 IP 技术,客户不需要专门培训――本系统从安装到正 式上线,客户在 20 分钟内即掌握了本系统维护技术。
9.3.2.2
集中式数据备份
方案一中应用到集中式数据备份,其原理就是采用 IP SAN 备份软件 对两幢楼中的 SAN 数据进行 Disk-Disk 集中式备份。系统将在大楼-A 内配置一台备份服务器,用来统一 管理两幢大楼中所有服务器的数据备份与恢复,备份的数据不仅要保存在同一楼内,同时还 要保存到另一楼内一份,以做异地备份,而所有的这些备份操作全部是通过备份服务器来进 行统一设置,这样不仅满足了用户的需求,而且方便了管理员的操作。 z
拓朴结构
拓扑图如下
图 z
9-8
系统方案一拓扑图
系统架构:
121
采用两台 IP SAN 网络存储服务器连接 1T RAID 作为备份介质,用一台服务器(或普 通的 PC 机)作为备份/介质管理服务器,其他需要备份的应用服务器上安装相应的代理客户 端,作为备份客户端。通过网络和其他服务器连接构成集中备份网络。 备份恢复说明:该系统采用集中备份/恢复/监控的方式。由中心管理员制定备份数据的 备份任务策略和数据存储策率。每台备份客户端的代理程序根据相应的备份任务,将相应的 数据备份到备份服务器上的 RAID 中。到进行数据恢复时,则每台客户端的代理程序将从备 份服务器上的介质中将相应的数据恢复到指定的区域。以上过程都可在线进行。 数据存放:该系统支持数据的分散存放和多拷贝,备份数据即能存放在本地的 RAID 中, 也能存放到异地的磁盘上,或者是离线的归档设备上(LTO 带库)等。同时所有的备份数 据集都包含元数据和备份数据。因此能保证数据恢复的快速,准确,安全(多分拷贝),可 靠(数据恢复时不必访问元数据库) 。 用户管理:该系统采用多用户和群组的管理方式,可以采用自主备份的模式,能设定备 份权限和优先级。增加了备份的安全性,减少了集中管理人员的负担。 日志传送:该系统可以在 WAN 网络上进行数据传送时,支持日志传送方式。这样不仅 保证了备份任务的完整性和可靠性,也降低了对网络资源的浪费。当网络发生故障时,可以 自动从故障点继续备份。 (断点续传) z
技术特点
采用 Disk-Disk 备份方式:磁盘到磁盘的备份方式,提高了备份速度(顺序读写比 LTO 磁带快 3 到 5 倍),减少了备份窗口,加快了备份速度。 支持异地灾备模式:系统支持一份备份数据多份拷贝,这就可以利用 IP SAN 方便的将 备份数据保存到异地去,以防止本地环境出现大范围的自然灾害而造成数据的丢失。 支持 OnePath Restor 恢复和数据合并模式(将增量备份和全备份合并成全备份):这样 就减少了全备份的时间,加快了恢复的速度(不必恢复多次,比其他应用恢复速度快 1 倍以 上)。(特有功能) 支持备份任务的断点续传:这样保证了即使备份期间发生故障,也能从该故障点继续备 份,而不必重新备份。 支持应用级的 SnapShot 备份和 QR 快速恢复:可以不必重新安装应用,就可重启应用, 加快应用恢复速度。 支持 AD 和 Exchange 的记录级备份:这样能对单个属性和信息进行备份和恢复。这样如
122
带格式的: 项目符号和编号
果某些内容不对,只要恢复部分数据即可。而不必进行所有数据的恢复,加快了恢复速度。 (特有功能) 采用日志方式在网上传送数据:保证了备份数据的完整性,节约了网络带宽。 (特有功能) 系统具有很好的可扩展性:无论是备份介质还是备份机器,无需任何设置,直接接入网 络就能工作。 系统支持所有的主流平台和操作系统平台,也支持所有的备份介质(Disk/Tape ..)。 采用文件系统作为备份数据集:符合操作人员习惯,便于数据迁移和升级。 采用集中单点管理,支持异地的 WEB 监控和管理:能方便的监控所有的备份资源和备 份数据集。 支持用户和群组管理模式:使得备份管理可以由用户自主管理,减少了中心管理员的压 力。 支持基于存储策率的备份模式:由管理员制定统一的数据迁移模式,当备份存储策率改 变时,不用一一修改所有的备份任务。 采用 BackupStorageSet 模式:支持备份数据集的分布放置和不同存储方式。使得数据监 控一目了然。
9.3.2.3
交互式数据备份
方案二中应用了交互式数据备份,其原理是配置两台备份服务器,每台服务器将承担两 项备份任务:一项是用于集中管理本地服务器正常的数据备份,另外一项任务是对另一台备 份服务器本身数据进行备份,这样当一台备份服务器出现了故障,另一台备份服务器还将继 续工作,并可以快速、安全、方便的恢复出现故障的备份服务器,以避免由于备份服务器自 身的问题而丢失其它服务器备份的数据。 z
拓朴结构
拓扑图如下:
本方案将在两幢楼内分别配置一台备份服务器,大楼-A 中的备份服务器集中管理大楼 -A 中所有服务器数据的备份与恢复任务,大楼-B 中的备份服务器集中管理大楼-B 中所有服 务器数据的备份与恢复任务,并且大楼-A 中的备份服务器还要对大楼-B 中的备份服务器进 行备份,大楼-B 中的备份服务器还要对大楼-A 中的备份服务器进行备份,这样就形成大楼
123
-A 与大楼-B 中的服务器相互备份,当大楼-A 中的备份服务器出现了故障,完全可以从大楼 -B 的备份服务器中恢复数据以保证大楼-A 中其它服务器的备份任务照常进行,备份的数据 还能用于出错后的恢复,同理大楼-B 中的备份服务器出现了故障也可以利用大楼-A 中的备 份服务器进行恢复。
图
9.3.2.4
9-9
系统方案二拓扑图
方案特点
这两套方案都将采用 IP SAN 网络数据存储结构,结合 IP SAN 网络备份体系结构,构 建成一个基于 IP SAN 架构的数据容灾系统和 Disk-Disk 数据备份系统,这是一个既能满足 用户数据备份要求,又涵盖主流存储体系,用户级的容灾加备份的解决方案。 采用基于 IP SAN 网络存储服务器的 IP SAN 作为备份存储介质。它具有下列优点: 动态扩容。客户可根据需求来逐渐增加用于备份的存储容量。IP SAN 网络存储服务器 可提供多达 256TB 的存储容量。 可同时达到数据备份及容灾两个目的。由于是基于 IP 网络,所以备份服务器与备份存 储介质之间不受距离的限制。当把备份介质放到通过 IP 网络连接的异地时,不仅实现了数 据备份,也实现了数据容灾。 先进的物理存储系统(IP SAN)与先进的备份技术整合在一起。这样取两家之长构成
124
的数据容灾备份系统是其它单一的软件系统或硬件系统所无法比拟或无法实现的。其中数据 存储系统最大限度地从速度和应用范围方面优化存储资源和网络资源,扩展了用户存储系统 现有的投资;此外还解决了集中存储、数据复制、I/O 效率、网络性能等问题。 z
方案一特点
本方案采用的是区域容灾加集中式备份,采用该集中备份方案,能在现有的网络基础上, 将各分散服务器的数据完整可靠的集中备份起来。同时能保证应用和数据的在线快速备份和 恢复。该方案不仅能够提供备份数据的多种拷贝,而且由于将备份数据和元数据备份在一个 备份数据集中,所以在各种情况下都能进行恢复,使得数据备份恢复安全可靠。 同时,采用基于存储策略的备份模式,和自主备份,集中监控的管理模式,可以大大减 轻备份管理维护强度。 通过这个方案能为用户提供完整的数据保护服务。而且能够根据应用的不同要求,来灵 活提供不同的客户端配置,能非常灵活的满足用户的最终要求。 z
方案二特点
数据的保护更加安全:本方案不仅仅保护了服务器的历史数据,而且也保护了管理备份 的备份服务器的数据,这样使的用户的数据更加安全。 提升了系统性能:本方案采用了两台备份服务器,每台备份服务器都分担了一部分备份 任务,与方案一相比较,不仅提升了备份服务器的性能而且也节约了大楼间网络传输的带宽。 z
方案三特点
本方案是通过异地数据备份来达到数据容灾的目的。 当用户对数据恢复的时间要求不 高,而且数据变化量不大的情况下,这是一个既经济有稳妥的方案。 z
方案的关键点
如前所述,容灾不但是一个技术问题,更是一个工程问题。在技术方面,本方案克服了 以下技术难点: 解决了传统技术构建的容灾系统的扩展性和延伸性受限制问题。 克服了因对数据传输介质专门要求而带来用户成本增高问题。以前在建造容灾系统过程 中,容灾专线的建设占用了用户很大的投资。而存储工程师提供的方案由于采用比较普及的 传输介质,如支持 TCP/IP 网络,这样易于实施,更能降低成本。 解决了一般容灾系统的比较封闭问题。本方案容灾具有开放性,支持和兼容多种硬件系 统。
125
充分考虑用户对主应用程序运行连续性要求,本容灾系统的运行不应影响应用系统的正 常使用。 容灾系统如何保护用户信息的完整性是最核心问题。由于本方案设计过程中将此作为重 要设计指标之一,因此它可保证用户数据的完整性和可靠性。 利用其它技术构建容灾系统存在技术复杂,使用、维护不方便等问题。而本方案则具有 简单、实用的灾难恢复手段。 本容灾系统本身对具备各种容错进行了考虑,从而保证当灾难发生时,用户可以安全、 可靠地将数据恢复出来。 本容灾系统还支持灵活多样的容灾结构,这样用户可以根据环境的变化来改变容灾的结 构。 z
在工程方面,本方案在实施中还充分考虑了以下几点:
首先对容灾方案的可行性进行评估。 帮助用户建立一套规范的容灾流程及其具体措施。这包括:
9.4
建立容灾系统的标准安装及操作流程
建立数据恢复的标准操作流程
建立测试流程
根据需求的变化,制定相应的数据容灾及备份策略
建立灾难的预警机制
建立定期的演习及测试制度
建立定期的人员培训制度
IP 存储发展 随着网络存储技术的飞速发展,各种存储设备和技术正趋于融合。总有一天,现在的
光纤和 SCSI 磁盘阵列、NAS 文件服务器、磁带库等设备都可以运行在一个统一标准的架构 中。IP 存储(Storage over IP 简称为 SoIP)——在 IP 网络中传输块级数据——使得服务器 可以通过 IP 网络连接 SCSI 设备,并且像使用本地的设备一样,无需关心设备的地址或位置。 而网络连接则是以 IP 和以太网为骨干,这令人联想起今天耳熟能详的存储域网(SAN)结 构。只是以廉价而成熟的 IP 和以太网技术,替代了光纤通道技术。
126
由于既有的成熟性和开放性,IP 存储技术,使企业在制定和实现“安全数据存储”的 策略和方案时,有了更多的选择空间。例如远程的数据备份、数据镜像和服务器集群等领域, IP 存储的介入都可以大大丰富其内容。同时,IP 存储也消除了企业 IT 部门在设计传统 SAN 方案时,必须面对的产品兼容性和连接性方面的问题。最重要的是,基于 IP 存储技术的新 型“SAN”,兼具了传统 SAN 的高性能和传统 NAS 的数据共享优势,为新的数据应用方式 提供了更加先进的结构平台。 在过去的一年中,存储和网络厂商的注意力,主要集中在 IP 存储技术的两个方向上— —存储隧道(Storage tunneling)和本地 IP 存储(Native IP-based storage)下面是这两个方面 的一些粗略概况
9.4.1 存储隧道技术 顾名思义,这种技术是将 IP 协议作为连接异地两个光纤 SAN 的隧道,用以解决两个 SAN 环境的互联问题。光纤通道协议帧被包裹在 IP 数据包中传输。数据包被传输到远端 SAN 后,由专用设备解包,还原成光纤通道协议帧。 由于这种技术提供的是两个 SAN 之间点到点的连接通信,从功能上讲,这是一种类似 于光纤的专用连接技术。因此,这种技术也被称为黑光纤连接(Dark fiber optic links)。由 于其专用性,使得这种技术实现起来成本较高,缺乏通用性,而且较大的延迟也对性能造成 一定影响。其最大的优势在于,可以利用现有的城域网和广域网。这一优势,正好为炒作的 沸沸扬扬,但至今无法充分利用的宽带资源,提供用武之地。 另一方面,虽然 IP 网络技术非常普及,其管理和控制机制也相对完善,但是,利用 IP 网络传输的存储隧道技术,却无法充分利用这些优势。其原因主要在于,嵌入 IP 数据包中 的光纤通道协议帧。IP 网络智能管理工具不能识别这些数据,这使得一些很好的管理控制 机制无法应用于这种技术,如目录服务、流量监控、QoS 等。因此,企业 IT 部门的系统维 护人员,几乎不可能对包含存储隧道的网络环境,进行单一界面的统一集中化管理。 目前的存储隧道产品还有待完善,与光纤通道 SAN 相比,只能提供很小的数据传输带 宽。例如,一个在光纤 SAN 上,用两到三个小时可以完成的传输过程,在两个光纤 SAN 之 间以 OC-3 标准传输大约需要 14 个小时。这是目前存储隧道产品比较典型的传输速度。当 然,这样的性能表现,不会限制到该技术在一些非同步功能中的应用。如远程的数据备份, 就不一定需要很高的数据传输带宽。
127
总之,存储隧道技术,借用了一些 IP 网络的成熟性优势,但是并没有摆脱复杂而昂贵 的光纤通道产品。
9.4.2 本地 IP 存储技术 这一技术是将现有的存储协议,例如 SCSI 和光纤通道,直接集成在 IP 协议中,以使存 储和网络可以无缝的融合。当然,这并不是指,可以在企业 IT 系统中,把存储网络和传统 的 LAN,物理上合并成一个网络。而是指在传统的 SAN 结构中,以 IP 协议替代光纤通道 协议,来构建结构上与 LAN 隔离,而技术上与 LAN 一致的新型 SAN 系统——IP SAN。这 种 IP-SAN 中,用户不仅可以在保证性能的同时,有效的降低成本,而且,以往用户在 IP-LAN 上获得的维护经验、技巧都可以直接应用在 IP-SAN 上。俯拾皆是的 IP 网络工具,使 IP-SAN 的网络维护轻松而方便。同样,维护人员的培训工作,也不会像光纤技术培训那样庞杂而冗 长。 设想一下,一个大型企业的 IT 部门引入了一项新技术,并以此构建了底层的大型存储 系统。却不需要调整现有的网络和主机,不需要改变应用软件,不需要增加管理工具,甚至 不需要过多的技术培训。现有的网络管理工具和人员,完全可以应付这一切。这是一个多么 诱人的系统升级方案! 与存储隧道技术相比,本地 IP 存储技术具有显著的优势。首先,一体化的管理界面, 使得 IP-SAN 可以和 IP 网络完全整合。其次,用户在这一技术中,面对的是非常熟悉的技 术内容:IP 协议和以太网。而且,各种 IP 通用设备,保证了用户可以具有非常广泛的选择 空间。事实上,由于本地 IP 存储技术的设计目标,就是充分利用现有设备,传统的 SCSI 存储设备和光纤存储设备,都可以在 IP-SAN 中利用起来。 本地 IP 存储技术,更进一步的模糊了本地存储和远程存储的界限。在 IP-SAN 中,只 要主机和存储系统都能提供标准接口,任何位置的主机就都可以访问任何位置的数据,无论 是在同一机房中,相隔几米,还是数公里外的异地。访问的方式可以是类似 NAS 结构中, 通过 NFS、CIFS 等共享协议访问,也可以是类似本地连接和传统 SAN 中,本地设备级访问。 随着带有 IP 标准接口的存储设备的出现,用户可以单纯使用本地 IP 存储技术,来扩展 已有的存储网络,或构建新的存储网络。以千兆以太网甚至万兆以太网为骨干的网络连接, 保证了本地 IP 存储网络,能够以令人满意的效率工作。
128
9.4.3
技术选择
无论在哪个方面,用户总是要面对这样的问题。答案又总是,明确需求,从实际出发。 简单的讲,存储隧道技术很好的利用了现有的 IP 网络,来连接距离较远的各个“SAN 岛屿”。 例如,对存储服务供应商来说,如果想向已经建有光纤 SAN 的用户,提供数据看护服务, 存储隧道技术就是非常好的选择。 一些用户期望自己的 IT 系统具有很高的集成度,这一点是存储隧道技术难以达到的, 而本地 IP 存储技术在这方面,具有相当强的竞争力。同时,这项技术也是实现从光纤 SAN 平滑升级到 IP-SAN 的最好选择。所以,越来越多的存储和网络厂商,开始对本地 IP 存储 技术提供投入和支持
129
第三部分
应用知识
第十章 一般 SAN 系统搭建 SAN 是建立在存储协议基础之上的可使服务器与存储设备之间进行“any to any”连接 通信的存储网络系统,可以实现多服务器共享一个阵列子系统、共享一个自动库实现数据的 共享和集中的管理,进而完成快速、大容量和安全可靠的数据存储,因此,越来越为业务迅 猛发展、数据呈爆炸增长趋势的企业所青睐。 需要 SAN 业务的系统为 z
对数据安全性要求很高的企业,典型行业: 电信、金融和证券,典型业务: 计费。
z
对数据存储性能要求高的企业, 典型行业: 电视台、交通部门和测绘部门, 典型 业务: 音频/视频、石油测绘和地理信息系统等。
z
在系统级方面具有很强的容量(动态)可扩展性和灵活性的企业,典型行业: 各中大 型企业, 典型业务: ERP 系统、CRM 系统和决策支持系统。
z
具有超大型海量存储特性的企业,典型行业: 图书馆、博物馆、税务和石油, 典 型业务: 资料中心和历史资料库。
z
具有本质上物理集中、逻辑上又彼此独立的数据管理特点的企业,典型行业: 银行、 证券和电信, 典型业务: 银行的业务集中和移动通信的运营支撑系统(BOSS)集中。
z
实现对分散数据高速集中备份的企业, 典型行业: 各行各业, 典型业务: 企业各 分支机构数据的集中处理。
z
数据在线性要求高的企业, 典型行业: 商业网站和金融, 典型业务: 电子商务。
z
实现与主机无关的容灾的企业, 典型行业: 大型企业, 典型业务: 数据中心。
以上是企业典型数据特性的典型业务举例,通常,企业环境、业务形式错综复杂,会同 时具备多数据特性。
130
10.1 大型企业综合存储系统 10.1.1 业务的主要数据特性 对数据安全性、存储性能、在线性和文件系统级的灵活性要求高,并需要对分散数据高 速集中的备份,又属于超大型海量存储。
10.1.2 用户状况 某大型企业通讯部门主要从事接收、处理、存档和分发各类全球性卫星数据,以及卫星 接收技术和数据处理方法的研究。卫星的观测信息以图形方式显示,通过地面接收转换成数 字格式保存,但每条信息的占用的存储空间都很大,每天的数据量在几百 MB 到 2GB 之间。 由于在线数据存储空间很有限,特别是用户要通过 HDDT 磁带方式对数据进行存档管理, 并需要以人工方式管理磁带,从而使得数据查找效率低下,大量珍贵数据得不到有效利用。
10.1.3 需求分析 由于需要在线数据存储量大约在 1~2TB,并在包括 Sun、SGI、IBM 的小型机和 PC 服 务器在内的主机环境中还要增加曙光超级计算机,而且多台主机不仅集中存储,还要能够共 享数据; 另外,卫星下载资料以文件格式保存,单个文件可达 GB 级。针对这些需求,进行 方案设计时首要考虑的因素是设备的容量和性能,以及系统的在线连接性和数据的共享。在 此基础之上,还要扩大在线系统容量,建立自动化的数据备份系统,实现离线存储数据的自 动管理。
10.1.4 系统设计
131
如前所述,原环境中已存在一些网络设备,在构建 SAN 时增加一台光纤通道交换机和 一台光纤通道磁盘阵列。由于用户的应用需要不同平台的多台主机共享数据,所以还要配以 文件共享软件和网络文件系统转换的软件。本方案采用 HDS 公司的 Thunder 9200 和 IBM 公
图
10-1
系统拓扑图
司光纤交换机 2109-S08 或 S16 组建存储区域网络,其拓扑结构如图10-1 所示。 由于同一文件要被多台主机编辑、处理与访问,而且文件非常大,无论在 SAN 还是在 LAN 上传输都很浪费资源,因此要采取文件共享的方式,让所有主机访问文件的同一个拷 贝。在多主机混合平台的情况下,采用 IBM Tivoli SANergy 软件,配以支持在 Windows NT 上实现 NFS 共享的软件 NFS Maestro。 在此方案成功实施运转一个时期后,由于业务发展迅猛,系统的数据量快速增长,用户 又提出增加在线存储容量和建立自动数据备份系统的需求。事实上,富有经验的集成商在系 统设计初期已考虑到未来的扩展问题,当需要增加在线容量时,用户只需购买一台新的 HDS Thunder 9200,将其连接到 SAN 上,它提供的存储空间立即可分配给 SAN 上任意主机,还 能集中管理数据。当用户需要做自动数据备份时,根据对容量和备份窗口的要求选择 IBM SAN 解决方案中的自动磁带库(如 LTO 系列),将其与备份服务器连接到 SAN 上,即可进行 集中、自动且 LANfree 的数据备份。扩容后的存储区域网拓扑结构如图 2 所示。当设备数 量增加较多时,可以通过交换机堆叠或级联增加 SAN 的连接能力。
方案点评 性能: 高性能的光纤通道交换机和光纤通道协议可以确保设备连接可靠且有效。 可靠性: 磁盘阵列通过写缓存镜像、多 RAID 等级和全局热备份盘等技术提供不同的保
132
护特性,并通过在线数据校验,保证数据完整性。 扩展性: 使存储与直接主机连接相分离,确保动态存储分区。 功能: 基于 SAN 结构的文件级共享是本方案的关键。
图 10-2
项目实施拓扑图
10.1.5 可选的解决方案 10.1.5.1
IBM SAN 解决方案
IBM SAN 解决方案由五大构件组成,包括服务器、存储设备、连接设备、管理软件和 服务。其中服务器可选用 IBM AS400、AS390、AS6000 或 PC 服务器等。存储设备可选用 IBM 的磁盘系统,如著名的 ESS(大白鲨)、7133 串行磁盘系统和 IBM 模块化存储服务器 (MSS2106); 磁带系统可选用 Magstar MP 3570 磁带子系统、Magstar MP 3575 磁带库数据服 务器、Magstar 3590 磁带子系统、Magstar 3494 磁带库/虚拟磁带服务器 VTS 以及 LTO 线性 开放磁带系统; 还有光盘系统,如增强型 3995 光盘库 C 系列等; 连接设备可选用 IBM SAN 光纤通道交换机(如 2032-001 McDATA ED-5000 和 2042-001 INRANGE FC/9000)、IBM 光纤 通道管理集线器(如 8 端口 FC-AL 集线器和 2103-H07 IBM SAN 光纤通道存储集线器)以及 IBM SAN 网关(如 2108-G07 IBM SAN 数据网关与 2108-G03 IBM SAN 数据网关路由器和 7139-111 VICOM 光纤通道 SLIC 路由器); 管理软件可选用 IBM StorWatch 系列存储管理产 品、DFSMS 系列存储管理产品和 Tivoli 系列存储管理产品。 此外,IBM 还推出一套主要面向中低端市场的 IBM Open SAN 解决方案,它支持及时 拷贝与脱机备份功能,提供 SSA 空间复用性和支持不间断的扩展等性能。 其特点是: 大而全,单件可选性强,兼容性强,其中磁带库产品性能强劲。
133
10.1.5.2
XIOtech(Seagate 子公司) SAN 解决方案
与其他厂商提供的存储方案略有不同,XIOtech 提供了 SAN 环境下虚拟存储方案,主 要包括 Magnitude 硬件平台和 Redi 软件。Magnitude 硬件平台符合开放系统标准,并且将所 有 SAN 组件并入了一个集中化配置中,即一个高性能的存储控制器、SAN 管理软件和 64 台硬盘或具有 11.5GB 的存储设备。通过在所有可用硬盘上交叉存取数据,Magnitude 可让 用户从一个中央控制台执行所有的存储管理任务,还可以在虚拟磁盘之间拷贝、交换和镜像 数据,并在与 Magnitude 相连的光纤信道设备上执行 LUN 屏蔽、LUN 映像和群集任务。另 外, Redi 将 Magnitude SAN 内的所有物理驱动轴合并到一个虚拟库中,可伸缩性强,能使 多平台服务器共享大量数据,并提高数据可用性。 其特点是: 具有可扩性、高可用性和虚拟存储特性。
10.2 券商容灾系统 该系统业务的主要数据特性是需要实现与主机无关的容灾。
10.2.1 技术准备 客户现状设想如下: 某券商已有本地用户上百家,远程分中心若干个,都与当地用户相连,卫星用户约几千 家,带近百个远程登记处。目前该券商已经建立起一整套证券股票交易网络体系(如图10
图10-3
客户系统现状
134
-3 所示),为保证未来业务的可扩性和安全性,提高现有应用系统防范各种风险的能力必 须建立一套有灾难备份能力的存储系统。
需求分析 灾难备份中 2 个最关键因素是系统运行环境(包括系统数据与应用程序)和用户数据资 源。前者的变动频率低,数据量不大,相对较稳定; 后者变化快,数据量大,实时性高。由 于该券商的清算作业和大型非交易过户作业具有数据量大、处理强度高、不能中途恢复和在 限定时间内尽快完成等特点,所以希望 SAN 存储环境满足: 当灾难出现时,位于同城异地 的备份系统能保持灾难发生日前半天的数据完整,并在灾难发生后一天内结算业务能正常运 行工作,同时还要能够实现远程异地备份。
10.2.2 系统设计 根据该券商对灾难恢复系统的要求,集成商提出多种可能的解决方案。最传统的方法是 磁带备份与恢复,但它不满足未来灾难备份可扩展性及日常可维护性。另一个是通过高速网 将用户数据实时送到备份中心的方案,但它只能保证灾难发生日前一天的结算后数据,无法 满足灾难备份要求。还有一个是采用软件方式实现数据的远程热备份方式,但它会引发时延 问题,拖延结算时间。最后一个是远程磁盘镜像(SRDF)方案,它对生产系统的运行效率无 不良影响,能够保持数据的完整性和可用性,并对用户数据实施多重保护等等。 该券商结算系统由本地生产系统和异地灾难备份系统及相关通信链路组成,其 SAN 存 储结构图如图10-4 所示。它在生产中心和灾难备份中心都采用了同档次的 IBM 小型机 和 EMC Symmetrix 8430 磁盘阵列,其中 Symmetrix 8430 配置 450GB,在采用镜像保护措施 后,可用磁盘量将达 225GB。正常运行时,该券商生产中心的业务结算主机与 EMC Symmetrix
图10-4
采用 SRDF 条件下的容灾拓扑图
135
8430 (以下简称 R1)相连,灾备中心建在与生产中心相隔 10km 的另一处机房,在灾备中心 的 EMC Symmetrix 8430(以下简称 R2)中相同数量的一组硬盘与 R1 远程镜像保持数据同步。 而远程备机控制 R2 中另一组硬盘供该券商查询处理及测试与分析用。需要指出,在进行远 程异地备份时备份软件 SRDF 功不可没。 可以看出:容灾是一个从存储设备、主机系统到上层应用软件的系统工程,从功能上讲 可以分为数据复制和应用切换两大部分。在考察方案时也应该从这两部分出发,缺少任何一 部分,都不是完整的容灾方案。
10.2.3 可选的解决方案 10.2.3.1
EMC SAN 解决方案
EMC 公司支持最基本的集线器方式,主要产品包括面向高端市场的 SAN 存储平台 Symmetrix,它提供一个完全受保护的共享存储系统,可实现各种信息的透明访问。近日, EMC 新推了 Symmetrix 增强系列 8830、8530 和 8230,引入更快存储器和双倍数量的内部 数据总线,对信息存储设备的性能、连接性、功能和容量等进行了升级,使开放系统性能提 高 50%,主机性能提高 100%,容量提高 260%,可连接性提高 500%,最大可处理 70TB 的 数据量,而且其运行环境、高速缓冲技术和处理能力均大幅提高,具有很好的兼容性,可实 现信息高效的整合,降低用户的 TCO。与此同时,对于基于光纤通道的 ESN 系统,由于采 用模块化设计,具有很强的伸缩性,可按照不同的连接和可用性要求提供灵活的配置阵列选 择,其中包括对单一的、单点的、集中化的管理软件 Control Center。它采用统一的管理界 面和管理方式,使对不同的存储设备的管理工作简单易行; 控制中心可以建立在工作站、服 务器上,还可以通过浏览器的方式远程实施管理; 另外,只需简单的鼠标点击,就可以自动 获得存储器物理图像,了解磁盘的配置情况; 同时,控制中心还提供逻辑化的管理手段、简 洁的图形化的管理系统,完成企业存储网络的管理。ESN Manager 软件则主要完成 SAN 交 换管理。
136
10.2.3.2
CA SAN 解决方案
2001 年 8 月,CA 公司在京推出其端到端的集成化跨平台存储解决方案 BrightStor 中的 第一款产品 CA BrightStor Enterprise Backup。它是一款多平台备份和灾难恢复解决方案,可 对数据进行快速可靠的恢复,最大限度缩短系统的停机时间,还能对各种应用和数据实现不 间断保护; 并可实现集中监控和管理,管理人员只需通过一个控制台即可监控所有备份和恢 复。同时其扩展性强,可提供大量的选件,支持广泛的应用平台和大型存储系统以及大容量 的索引数据库,还易于安装与配置。此后不久,CA 公司又发布了 BrightStor CA-Vtape Virtual Tape System(VTS) 2.0 版。它能帮助客户在现有基础上建立一个虚拟的磁带系统,通过把大 量文件堆栈到每个磁带中,解决磁带利用率不高的问题。企业采用新版本 CA-Vtape 后,可 以把存储在虚拟空间中的数据压缩到 DASD 高速缓存中,使数据存储量增加 1 倍。
10.2.3.3 Veritas SAN 解决方案 Veritas 公司提供的 Cluster Server(VCS)和高性能的 File System 等为 SAN 环境下的解决 方案真正铺平了道路。目前,VCS 支持 32 台服务器的互联和无限容量的存储管理,具有高 可扩展性,还支持多种主机系统平台和磁盘系统以及多种企业级应用,而配置和管理非常简 单,可以实现应用级的服务器高性能切换。通过与 Volume Manager 结合,VCS 可让用户的 数据以一种最快捷的方式分布到多个磁盘上面,使应用系统在相当高效的基础上运行。File System 是一个强大的、可快速恢复的日志式文件系统,它提供了关键性应用所需的高性能 和易管理性。Volume Manager 为 SAN 环境提供了易于使用的在线磁盘与存储管理工具。当 系统处于联机状态时,它提供磁盘使用情况分析、RAID 技术、数据镜像和磁盘存储区的动 态配置,确保数据的可用性、易用性和保护性。
10.2.3.4
Legato SAN 解决方案
Legato SAN 解决方案的基本产品模块包括 Networker Power Edition、Legato Networker Power Edition Storage Nodes 和 Legato SmartMedia/Alphastor。其主要特点如下: 降低对服务 器和网络的影响; Legato Networker 备份速度可达每小时 1.5TB; 单个 Legato Networker Server 可集中控制 256 个 Networker Storage Nodes; 支持异构平台的协同运作,数据备份和
137
恢复可跨越 Windows NT 和各种 Unix 平台,并支持市场上所有的文件系统和卷管理器; 可 实现磁带库和驱动器的共享访问; 此外,Legato Celestra 的 Serverless 技术可确保终端数据与 应用程序的可用性,无须备份窗口便可实现故障自动修复; 同时采用先进的 Snapshot(快照) 技术,还可实现在线备份。
10.3
移动业务逻辑独立的存储系统
该客户类型的数据特征是:主要具有本质上物理集中、逻辑上又彼此独立的数据管理特 点。
10.3.1
预先分析
用户状况 按照移动公司系统建设要求,某省业务运营支撑系统不只是局限于原先计费、结算、营 业和账务系统,而是将其扩展到与业务、市场相关的客服、决策支持和用户数据管理等方面, 用户原有的系统业务处理的结构无法满足未来 BOSS 系统全网的扩展,因此有必要对该结构 进行重新设计,尤其是存储结构。 需求分析 BOSS 系统对存储资源的需求往往是一个动态的过程。由于用户业务是不断迅速增长 的,对磁盘阵列在线存储的需求无法准确预测,用户不可能事先对所有不同类型的业务种类 都分配永远足够的磁盘容量,这样就要求不仅能够在线动态分配存储,而且能够在线进行整 个磁盘阵列的容量扩展。具体来讲,有如下需求。 z
可提供不小于 4.5TB 存储空间。
z
可连接不少于 11 台业务服务器。
z
存储设备组件故障冗余,对共享的数据存储设备提供统一的 RAID 保护; 同时通过 多通道技术和 Hot Spare 技术实现组件故障冗余; 支持群集管理,提供群集环境中 各业务服务器的数据存储资源共享; 具备远程存储,借助特殊的连接设备实现服务 器与存储设备的远程连接; 提供数据高吞吐率和设备连接性。
138
10.3.2
系统设计
如图10-5 所示,省移动 BOSS 系统是由多台小型机组成处理系统,组成 N+1 模式 的群集结构,其中 6 台主机主生产机,1 台主机为备用机。日常业务的处理由前 6 台主机完 成,备用主机只在前 6 台主机中的 1 台出现异常宕机时接管主机。
图10-5
系统结构图
此 BOSS 系统可通过增加数据库主机数目、磁盘阵列存储空间等手段进行扩展,并通过 将原服务器上的某部分数据分离出来,进行业务的均衡,以达到扩容目的,从而保证 BOSS 系统的平滑升级。 此方案主要采用了 HP 公司和 Borcade 公司 SAN 环境下按需求分配磁盘存储资源的解 决方案。其中,采用了磁盘阵列容量为 9TB 的 HP SureStore XP512,并采用 RAID0+1 方式 实现磁盘阵列数据的保护; 同时采用了实现磁盘阵列与服务器连接的 Borcade 公司 Silkworm 2800 光纤通道交换机; 还采用了可实现业务数据 LANfree 备份管理的 StorageTek 公司的 Aegis L700 磁带库系统。 在决策支持系统中,数据衍生速度是惊人的。这就要求存储系统在具有高度稳定性和高
139
性能的同时,必须具有极强的扩展性。也就是说,不仅要考虑单个存储设备的容量上限,更 要考虑整体结构的扩展性,即光纤交换设备的扩展能力。
10.3.3 可选的解决方案 10.3.3.1 HP SAN 解决方案 HP ESAM 体系结构包括 SureGear Hardware、SAN Software、SureSpan Fabric、SureGuide Services
和
SureDesign
Solutions 。 其 中 , SureGear
Hardware 包 括
SureStore
SC10/FC10/FC60/XP48/XP512、VA7100/VA7400 和 SureStore Tape Library 2/20、4/40、6/60、 6/140、10/180 及 20/700,特别是 VA7100/VA7400,都是端到端的光纤通道磁盘阵列,分别 拥有 900/1600Mbps 的性能,高速缓存能提供 12/27KB IOPS,磁盘后端可提供 3000/7500 IOPS。HP SureStore XP512 为 OLTP 应用提供了很好的顺序 I/O 传输性能,可在不停机的情 况下从 4 个磁盘驱动器扩展到 512 个磁盘驱动器,还能跨越多个大型主机和混合的其他开放 系统的平台。SAN Software 是指 Openview SAN,它具有自动发现、拓扑结构图、性能监控、 通过中央控制台对存储容量进行评估和管理等特性。SureSpan Fabric 主要包括 SureStore Hub L10/S10、Brocade SilkWorm 2400/2800、Qlogin SANbox 8/16、SureStore SCSI Bridge FC4/2 和 SureStore Bridge FC4/1 HV 与 FC2/1 LV 等。SureGuide Services 主要包括项目管理、 业务流程和商业运作咨询等等。 其特点是: 大而全,兼容性强,高端阵列产品表现出色,全线产品性能好。
10.3.3.2 Sun SAN 解决方案 Sun 最新推出的 SAN 解决方案将 Sun StorEdge T3 的模块可扩展性和 Sun StorEdge 网络 光纤交换机系列的性能和高可用性结合起来,是工作组、企业数据中心以及端到端 SAN 解 决方案发布的理想选择。该解决方案具有以下一些特点: 具有大容量的可扩展性,满足客户 不断增长的存储需求; 无论本地或远程存储与备份,均可通过单独的控制台进行方便地管理; 具有很强的互操作性,支持多种操作平台; 提供安全的容错、掉电冗余和 327GB~169TB 的 容量; 内含 Sun StorEdge 软件管理工具。 其特点是: 易安装和管理,投资低,运效高。
140
10.3.3.3 Brocade SAN 解决方案 Brocade 开发的智能 Fabric 服务体系结构为解决重要的 SAN 需求提供了强大而灵活的 框架。智能 Fabric 服务的关键元是 SilkWorm 系列光纤通道交换机和相关的 Fabric OS 软件 平台。SilkWorm 光纤交换机产品系列包括由低至 8 端口的入门级交换机乃至可提供多达 128 端口连接的 SilkWorm 12000 核心光纤交换机。SilkWorm 12000 支持 2Gbps 光纤通道模块和 新兴的存储协议,还支持可实现存储虚拟化和第三方拷贝等高性能光纤服务的应用软件平 台。另外,Fabric OS 可与硬件结合,实现支持高冗余网络,且在设备之间有多条路径。它 包含一组用于提升管理能力、可用性及扩充能力的重要光纤服务。 Brocade SilkWorm 交换机可配合其他主流存储硬件和服务器使用,令用户能选择最佳的 开放式系统环境。其特点是: 具有开放性、灵活性、可扩展性和智能性。
10.4 不成功的 SAN 应用 10.4.1
网站 SAN 存储系统
环境: 网络系统由 Web 系统、Mail 系统和数据库系统 3 部分组成。Web 系统以 Windows 平台为主,Mail 系统以 Linux 平台为主。 存储系统解决方案: 以 SAN 结构实现数据的集中和分散数据的 LAN Free 备份。 分析隐患: 由于网站各系统主机平台多种多样,为了保护数据必须在 SAN 中实现 LUN 隔离功能。为了节约成本,方案中没有选择具有 LUN Masking 功能的磁盘阵列系统,而是 通过主机端光纤卡中的设置,手工实现 LUN 的屏蔽。同时,光纤交换设备也采用了成本较 低的光纤 Hub,而不是具有光纤交换机制的光纤交换机。 经过复杂的设计和配置,磁盘阵列终于可以被主机识别和访问了,网站就此开通。 问题: 当将备份磁带库接入系统时,问题产生了。首先是由于系统结构的变动,主机端 的手工配置需要完全重新来过; 继而又发现磁带库的光纤接口类型与主机端的光纤卡无法 匹配; 然后是光纤 Hub 无法将磁带库与磁盘阵列的数据分流,致使系统对磁带库操作时磁盘 阵列不可用……
141
随着这一系列问题的出现,网站最终决定追加投资,将系统全面升级。但是,整个网站 在此半个月期间不能对用户提供及时有效的服务,其损失是难以估量的。
10.4.2
某气象单位存储系统
环境: 主要是卫星气象数据的采集和处理。主机系统为 IBM SP 并行机,数据库为 Oracle。 存储系统解决方案: 主要采用了 IBM 7133 磁盘阵列。 问题: 系统在建成并运行了一段时间之后,经历了一次意外断电。结果 Oracle 数据库无 法对数据进行恢复,致使长达数月的气象数据丢失。 分析隐患: 事后的调查分析发现,问题出在 IBM 7133 磁盘阵列。由于 IBM 7133 的磁 盘数据容错校验并不是硬件实现的,所以主机端磁盘管理软件的逻辑错误会造成整个磁盘阵 列系统的数据不可用。即使设法恢复出主机端的磁盘配置方式,但由于 IBM 7133 的缓存是 基于电池保护的,当意外断电恰巧发生在电池电量不足时,会造成对磁盘阵列系统内部数据 完整性的破坏,数据仍然无法恢复。 IBM 7133 属于部门级产品,在很多环境中都能表现出突出的性能优势。但是在本案例 中,对数据安全性的要求是第一位的,另外在主机系统方面采用了仅次于 IBM S/390 的大型 服务器,可见该系统对安全要求之苛刻,因此在投资方面可以采用更高价的高端存储设备。
10.4.3
某电视台非线性编辑系统
该系统环境及系统结构如下: 5 台以 Windows NT Workstation 为操作系统的非线性编辑 工作站,通过光纤交换机共享连接硬盘塔。 需要解决的问题是: 硬盘塔在存储业内也称 JBOD,即没有阵列控制器的磁盘组。由于 硬盘塔、交换机和主机光纤卡之间配合的问题,系统连接后,主机端总是无法稳定地访问到 磁盘,因此系统不能正常工作。 分析隐患: 经过仔细检查发现,问题出在交换机的内部交换机制。是过多的地址转换造 成了主机端的超时报错。解决的办法有二,一是增加投资,将硬盘塔换成带有控制器的磁盘 阵列; 二是减少投资,将光纤交换机换成光纤 Hub。在系统性能和并行性压力不强的情况下, 最后决定采取第二种解决办法,不仅节省了资金,而且保证了系统的稳定性。
142
当然,如果该系统的性能和并行性要求较高的话,还是应该采取第一种解决办法。因为 光纤 Hub 是共享带宽的交换方式,而且不支持 LIP 的隔离。
第十一章 数据中心设计 11.1 概
述
条件: 数据中心形式的信息数据库建设用户是用户生产信息通信网络的核心和枢纽,也是用户 生产数据中心。按照用户工作职能的划分,数据中心形式的信息数据库建设用户将承担网络 运行、系统运行、数据整合、信息服务、安全保障和应用开发等任务,其运行维护质量与工 作水平将直接关系到“数据生产系统”所建的信息数据库和各类应用系统能否充分发挥应用 效益,以及生产信息网络和应用系统能否安全、高效地运行。 根据“数据生产系统”本次建设任务要求,数据中心形式的信息数据库建设要建设和完 善多个基础性、共享性数据库和多个重点应用系统。按照生产部下达的建设任务书要求,现 有多数服务器的配置已不能满足运行要求,有关业务部门在制定系统建设方案时都考虑重新 配置更高性能的服务器和存储设备,这样分散的设备建设将带来很多弊端:机房、电源、备 份系统的重复建设,服务器及存储设备利用率不高,运行管理人员分散等,势必造成经费重 复投入,维护成本增加,不利于资源的整合和综合利用。 为此,按照集中整合和资源共享的原则,在数据中心形式的信息数据库建设用户统一构 建集中式的计算机应用系统数据运行设备平台,在满足业务信息系统建设和运行要求的同 时,实现用户服务器和存储设备资源的集约化管理,提高设备资源的综合利用和运行管理水 平,增强系统和数据的安全性。
11.2 需求分析和设计目标 11.2.1 系统现状 数据中心形式的信息数据库 是用户生产信息通信网络的核心和枢纽,也是用户生产数
143
据中心。按照用户工作职能的划分,数据中心形式的信息数据库建设用户将承担网络运行、 系统运行、数据整合、信息服务、安全保障和应用开发等任务,其运行维护质量与工作水平 将直接关系到“数据生产系统”所建的信息数据库和各类应用系统能否充分发挥应用效益, 以及生产信息网络和应用系统能否安全、高效地运行。根据“数据生产系统”本次建设任务 要求,数据中心形式的信息数据库建设要建设和完善多个基础性、共享性数据库和多个重点 应用系统。按照集中整合和资源共享的原则,在数据中心形式的信息数据库建设用户统一构 建集中式的计算机应用系统数据运行设备平台,在满足业务信息系统建设和运行要求的同 时,实现用户服务器和存储设备资源的集约化管理,提高设备资源的综合利用和运行管理水 平,增强系统和数据的安全性。 随着多个数据库和多个应用系统的建成并投入运行,数据中心形式的信息数据库建设的 信息存储量和查询量必将急剧上升,业务量也将快速增长,亟待按照技术先进、性能优越、 存储量大、安全稳定、扩展灵活的要求,建设基于多层应用体系架构的集中运行平台,为数 据中心形式的信息数据库建设数据库和应用系统的集中运行提供支撑,满足数据中心形式的 信息数据库建设建设多个数据库和多个应用系统的需要,实现数据和设备的高度共享,提供 有力的信息支持和服务。 系统现有问题假设 在此设定,数据中心形式的信息数据库建设用户的软硬件平台目前主要存在以下问题: 1、硬件处理能力低,设备老化,维护成本、数据风险增大。数据中心形式的信息数据 库建设用户目前配备的 PC 服务器已使用多年,Unix 服务器系统配置较低。这些服务器性能 不高,不能满足日益增长的业务应用需要。 2、没有采用先进的多层架构,无法实现统一管理和资源共享,资源利用率低,管理复 杂,扩展性不强。由于受管理体制、机制和经费的制约,数据中心形式的信息数据库建设用 户设备资源需求规划不足。至目前为止,数据中心形式的信息数据库建设用户都是根据应用 系统建设的需要,单独为某个应用系统配置相应的运行设备,导致数据中心形式的信息数据 库建设用户各个设备自成体系、独立运行,没有整合成多层架构体系,无法有效地扩展系统 资源。使得各个应用系统无法按照需求动态占用设备资源,一方面硬件资源严重短缺,另一 方面部分设备资源闲置、无法共享,不能适应动态调整的要求。 3、数据中心形式的信息数据库建设用户目前的设备资源不能满足“数据生产系统”数 据库和应用系统的建设需求。 设计方案“数据生产系统”将在 2 年内建设多个应用系统和
144
多个数据库,即使将目前的硬件资源进行整合和优化,也无法满足建设需求。据统计,目前 数据中心形式的信息数据库建设存储的各类信息数据约为 4TB,2 年后将达到 20TB 的存储 容量,而数据中心形式的信息数据库建设用户现有的可用存储空间已远远达不到要求;而数 据库服务器的处理能力将大于 500,000 tpmC,现有数据库服务器的处理能力离这一指标要求 相去甚远。 4、系统抗灾能力不足。一方面由于各应用系统分布在各自独立的设备上运行,且各个 设备对可靠性考虑不足,缺乏必要的冗余备份手段,数据缺少高可靠的存储阵列和容错策略 予以保护,数据备份能力不足。一旦出现严重故障导致数据损失、必然导致系统瘫痪,即使 能通过脱机备份数据恢复,也必将长时间影响应用系统的正常运转。
11.2.2 系统总体架构要求 根据设计,按照设备集中、集约管理、满足应用、方便扩展、安全稳定的要求,今后数 据中心形式的信息数据库建设用户建设的发展方向是按照先进计算机应用模式建立多层体 系结构(N-Tier)的数据中心。数据中心的逻辑结构如下图所示。
图11-1
数据中心逻辑图
多层体系结构核心应用层组件包括客户层、应用/WEB 服务器层和数据库服务器层和存 储备份层。 z
客户层:客户层是消耗应用数据的层。通常指 Web 浏览器。但多层结构(N-Tier)
145
也能支持诸如手机、掌上电脑等其它非浏览器。 z
应用/WEB 服务器层:应用/WEB 服务器层由应用服务器器和 Web 服务器组成。应 用服务器层提供应用的业务逻辑处理。应用逻辑服务器检索并处理来自数据库、生 产业务系统等应用的数据,然后向 Web 服务器返回格式化的结果。通过采用中间 件技术(Websphere、WebLogic、MQ)可实现应用逻辑服务器的高可用性及可伸缩性。
z
数据库服务器层:数据库服务器层是一个中心存储库,是业务应用系统中所有数据 资源的管理中心。提供包括关系型数据库系统(如 Oracle,Sybase,DB2 等)服务 和数据仓库(如多维数据库等)服务。
z
存储与备份层:存储与备份层由磁盘存储阵列和备份软件和备份磁带库组成,提供 数据存储和数据备份、数据恢复服务功能。
11.2.2 系统建设目标 根据设计规划,按照设备集中、集约管理、满足应用、方便扩展、安全稳定的建设要求, 遵循高起点、高标准、高质量的建设原则,立足当前,着眼发展; 在数据中心形式的信息数据库建设用户构建统一的集中运行平台,建立开放式多层架构 体系,优化整合现有设备资源,为数据中心形式的信息数据库建设数据库和应用系统建设提 供统一的运行环境,并实施系统资源的统一管理和维护; 提高硬件设备的集约化管理水平和可扩展能力,增强应用系统和数据的运行效率和管理 水平,降低各类应用系统建设成本,满足数据中心形式的信息数据库建设数据库和应用系统 的建设需要; 为数据中心形式的信息数据库建设开展应用系统建设、信息数据集中整合、方便信息分 析研判以及信息化建设的健康持续发展奠定良好的硬件设施基础。
11.2.3 系统建设任务 构建专用存储系统,集中存储数据 在多层体系架构中,采用存储区域网络技术,构建专用大容量存储系统,通过区域划分 满足各类信息数据的集中存储,保证存储系统信息存储的灵活性和可扩展性。 构建统一的数据库集中运行平台,提高数据处理能力
146
按照“运行可靠、性能优良、满足应用”的要求,在多层体系架构中,建设小型机集群 系统,采用并行运行和互为备份的集群技术,保证小型机高效和不间断运行。同时,通过小 型机分区技术,在小型机上构建不同应用数据库(统一采用 Oracle 数据库)的运行区域, 满足不同应用数据库系统的运行需要,使各类应用数据库既集中又相对独立地运行,以降低 不同数据库之间相互影响,提高数据库处理能力。 建立多种系统应用平台,提高集中运行平台的适应性 按照各类应用系统所需的不同系统运行环境,在多层体系架构中,建立与之相适应的多 种系统运行平台,提供 Unix、Windows 或 Linux 操作系统平台上应用服务和 Web 浏览等应用。 通过共享统一的存储系统,建立如 SQL Server 等其他主流数据库运行平台,提供数据库服 务。为有关部门的不同应用系统提供相应的运行环境。 整合优化现有计算机设备资源,提高集中管理和应用水平 根据系统建设的整体框架要求,按照数据集中整合和应用的需要,对用户现有计算机设 备资源进行调整,纳入统一集中运行管理框架的多层体系架构中。同时,按照设备集中管理 的要求,在数据中心形式的信息数据库建设集中计算机房建成后,将用户各类服务器及相关 设备集中起来,根据不同应用的要求进行整合优化,实行统一的运行和管理。 扩展数据备份系统,提高系统可靠性 数据中心形式的信息数据库建设数据库、其它应用数据库以及衍生的整合分析数据资源 是生产机关极其宝贵的重要资源,必须做到安全上的万无一失,并且各类应用系统要求 7× 24 小时×365 天不间断运行,要求基于多层体系架构的集中运行平台有多层面的系统可靠性 保障。集中运行平台中,所有层面要建立相应的容错机制,确保设备发生故障或升级维护时 系统服务不中断;设备自身必须具备容错能力,尽可能在设备一级就能屏蔽大多数故障。此 外,构建存储系统的“快照”复制和磁带备份系统,包含专业的数据备份系统、备份管理策 略与手段,通过在现有备份系统基础上进行扩展,实现信息数据的快速备份和统一的常规备 份以及高效的数据恢复,使集中运行平台具备高效、全面备份数据的能力,保证信息数据的 安全可靠。 建立集中运行管理机制,实现设备和系统资源的统一管理 按照计算机应用系统和数据集中运行的要求,建立设备和系统的集中运行管理机制,实
147
现对集中设备和系统的性能监控、配置优化和维护服务的统一运行管理,确保设备和系统的 高效、可靠和安全地运行,提高对设备和系统的运行管理水平。
11.3 系统设计原则 数据中心形式的信息数据库建设用户集中运行平台多层架构体系建设必须既满足当前 的应用需求,又面向未来业务和技术的发展要求。集中运行平台的建设遵循以下原则: 1、实用性和先进性 采用成熟、稳定、完善的产品和技术,满足当前应用需求。尽可能采用先进的计算机及 网络技术以适应更高的数据处理要求,使整个集中运行平台在一定时期内保持技术上的先进 性,并具有良好的扩展潜力,以适应未来应用的发展和技术升级的需要。 2、高性能和高负载能力 数据中心形式的信息数据库建设用户集中运行平台必须能够承载较大的系统和应用运 行负载,提供高性能的数据处理和应用响应能力,确保各类应用系统和数据库的高效运行。 3、安全性和可靠性 为保证业务应用不间断运行,数据中心形式的信息数据库建设用户集中运行平台必须具 有极高的安全性和可靠性。对系统结构、网络系统、服务器系统、存储系统、备份系统等方 面须进行高安全性和可靠性设计。系统达到 C2 级以上标准安全级别,具有一定的防病毒、 防入侵能力。在采用硬件备份、冗余、负载均衡等可靠性技术的基础上,采用相关的软件技 术提供较强的管理机制和控制手段,以提高整个系统的安全可靠性。 4、灵活性与可扩展性 数据中心形式的信息数据库建设用户集中运行平台要能够根据生产信息化不断发展的 需要,方便地扩展系统容量和处理能力,具备支持多种应用的能力。同时可以根据应用发展 的需要进行灵活、快速的调整,实现信息应用的快速部署。 5、开放性和标准化 数据中心形式的信息数据库建设用户集中运行平台要具备较好的开放性,相关系统和设 备应是业界主流产品,遵循业界相关标准,保证数据中心形式的信息数据库建设选用的主流
148
系统和设备能够随时无障碍地接入集中运行平台,实现系统和数据的集中运行和统一维护管 理。 6、经济性与投资保护 应以较高的性能价格比构建数据中心形式的信息数据库建设集中运行平台,使资金的产 出投入比达到最大值。以较低的成本、较少的人员投入来维护系统运转,达到高效能与高效 益的要求。尽可能保护已有系统投资,充分利用现有设备资源。 7、集中运行和逐步过度 数据库和应用系统建设采用集中运行和逐步过度相结合的原则。新的应用要直接部署在 新建的集中运行平台上运行,现有应用及硬件资源将根据需要和可能分期分批逐步融入集中 运行平台,进行统一的管理和资源配置。
149
11.4 系统方案设计 11.4.1 系统总体结构图 根据数据中心形式的信息数据库建设需求分析,系统总体结构(图 11-2)描述如下: 本项目的存储网络架构图,通过 SAN 能够将多种数据应用全面整合起来,其中后端的 阵列是整个系统的核心,所有的业务数据都存在该阵列中,因此阵列本身需要完全冗余架构 和极高的吞吐性能;SAN 网络采用 dual Fabric 设计,采用两台交换机构成冗余的存储网络; 每台主机(关键业务)可以采用两块(甚至更多)HBA 跨接到两台 SAN 交换机上,做的主 机到存储接口冗余;主机层采用 HA 配置,因此整个系统是高效而全冗余的。同时也能够平 滑过渡到下阶段的容灾系统。
图 11-2 数据中心建设概况 备份系统也跨接到 SAN 网络上,这样所有的备份工作可以大大减轻对于生产网络的影
150
响,主机直接通过 SAN 将数据读出并写到带库,完全采用 FC/SCSI 协议。 在上述架构中,后端的磁盘阵列采用高性能磁盘阵列,作为综合存储磁盘阵列。该磁盘 阵列代表当时行业的最佳性能、100%数据可用性,以及功能丰富的管理软件。
11.4.2 数据库服务器设计 11.4.2.1 数据库系统结构 数据库服务平台主要采用动态分区、多机集群、并行数据库等技术,实现多台数据库主 机同时并行访问数据库,应用可以根据需求均衡到不同主机资源上同时工作,多机互为备份。 这种机制依靠系统提供的系统硬件、操作系统集群软件、与数据库提供的并行技术来满足要 求。数据库支持数据分区技术,通过数据库分区技术提高查询效率。同时,与数据库服务平 台相配合,采用专用数据采集处理服务器,负责数据采集工作,各数据库的数据采取分别汇 集,单点入库的数据更新策略。 数据库服务器系统图如下:
综合数据库
心跳线
综合数据库
pSeries
pSeries
违法犯罪人员信息数据库 在逃人员信息数据库 被盗抢机动车信息数据库 刑事案件信息数据库 经济犯罪案件信息数据库 警员基本信息数据库 民警违法违纪案件信息数 据库 基层执法管理信息数据库 其他重点应用系统数据库
心跳线
IBM P690
违法犯罪人员信息数据库 在逃人员信息数据库 被盗抢机动车信息数据库 刑事案件信息数据库 经济犯罪案件信息数据库 警员基本信息数据库 民警违法违纪案件信息数 据库 基层执法管理信息数据库 其他重点应用系统数据库
每台IBM P690划 分成2个分区, 每个分区配置8 路1.7GHz CPU、 16GB内存、2块 千兆光纤网卡、 2块15000转73G 硬盘、2块2GB 光纤通道卡。对 应分区通过IBM HACMP软件实 现群集。
IBM P690
SAN
图 11-3 数据服务器示意图,以 IBM 产品为例 数据库服务器选用高性能 UNIX 服务器,每台 高性能 UNIX 服务器划分成 2 个分
151
区,每个分区配置 8 路 1.7GHz CPU、16GB 内存、2 块千兆光纤网卡、2 块 15000 转 73G 硬 盘、2 块 2GB 光纤通道卡。对应分区通过 HACMP 软件实现群集。 根据设计要求: “当前配置 tpmC =(TPMC 基准值* 实际 CPU 数目* 实际 CPU 主频)/ (基 准 CPU 数目*基准 CPU 主频)” (768,839*16*1.7)/(32*1.7)=384,420tpmC 数据来源 www.tpc.org
11.4.3 存储系统设计 11.4.3.1 存储系统结构
Brocade Silkworm 3852
Brocade Silkworm 3852
Adaptec FS4500
近线备份系统 HDS Lighting 9980V
图 11-4 网络存储结构图 上图为数据存储部分的系统架构示意图。 整体架构采用 SAN-存储局域网的架构搭建,分为主机、交换机和存储设备三个层面: 1、主机层面 前端服务器每台通过两块光纤卡(以下简称 HBA 卡)跨接到两台光纤交换机上,构成 冗余链路;
152
2、光纤交换机 利用两台 16 口光纤交换机作为 SAN 的骨干设备,连接主机和存储设备; 3、存储设备 主存储设备:核心磁盘阵列存储所有系统的数据。该磁盘阵列通过 1 对(2 块)接口卡 分别跨接到两台光纤交换机上,构成冗余链路 近线存储设备:近线备份目标磁盘阵列使用采用 STAT 磁盘的廉价磁盘阵列,离线备份 目标带库采用设计方案已有的带库
11.4.3.2 主存储系统方案 目前存储区域网(SAN)是解决海量存储问题的主流解决方案,也是本项目建设要求的 解决方案,同时也支持 NAS 方式。数据中心形式的信息数据库建设数据库及其应用系统相 关的数据库即将统一存储到大容量高性能的存储设备上,存储设备与主机群之间通过 SAN 光纤交换机互联(具有冗余联接),同时数据备份设备也通过光纤交换机联接以提高备份效 率,减轻网络和主机的压力。 在本方案中,存储工程师使用高档全光纤磁盘阵列为主存储系统,从用户的投资、需求 综合分析,推荐了极佳的性能价格比的产品,用户可以根据性能要求、扩展性要求、价格需 求等因素来选择。 根据数据中心形式的信息数据库建设该设计的需求,为了提高主磁盘阵列的性能,在该 设计中推荐配备 15000RPM 的 73GB 磁盘。 磁盘阵列在各方面均应充分扩展,并能够充分满足今后业务发展过程中数据迁移、系统 容灾的要求: 1)硬件方面 所有重要部分均应在线扩容——前端接口、磁盘控制卡、缓存、磁盘等。 2)软件方面 可选择不同的软件实现性能优化、数据迁移和数据容灾等:
153
z
管理软件
z
安全控制软件
z
数据缓存化软件
z
性能管理套件
z
本地镜像软件
z
容灾软件
z
多链路负载均衡和故障切换软件
3)所有维护和扩容均应在用户现场、不中断应用的情况下完成
11.4.3.3 近线备份系统 传统的数据存储一般分为在线(On-line)存储及离线(Off-line)存储两级存储方式。所谓在 线存储就是指将数据存放在磁盘系统上,而离线则是指将数据备份到磁带上。硬盘的优点是 速度快,特别是随机访问能力强,但单位容量成本高,适合需要频繁访问的数据存储;磁带 善于传输流式数据,介质与驱动器相分离的特性决定了其单位容量成本低廉,保存数据的安 全性也较高,适合数据备份。 但随着数据量的猛增,这种只使用在线和离线两级存储的策略已经不能适应企业的需 求。一方面,用户有越来越多的数据在一定时期内仍需要访问,如果备份到磁带上,则读取 的速度太慢,而保持在线状态,又会因访问频度不高而占用宝贵的存储空间;另一方面,用 户要求“备份窗口”越来越小,备份设备要具有更快的速度,以缩短备份时间,而带基设备与 盘基设备相比还不够快。 由此产生了数据的分级存储管理(HierarchicalStorageManagement,HSM)。分级存储管 理是一种将非在线存储与在线存储融合的技术。它以数据生命周期的不同阶段来决定存储的 位置,从而在在线存储与离线存储之间诞生了第三种存储方式——近线(Near-line)存储,使 存储网络从“在线-离线”的两级架构向“在线-近线-离线”的三级架构演变。近线存储的特 点是性能接近在线存储,而成本接近离线存储。
154
根据大型信息数据库存储系统分析结果,存储容量约为 16TB,考虑适当冗余和“快照” 备份,存储阵列实配容量应大于 20TB,存储阵列最大扩展容量应不低于 64TB。 基于存储区域网技术,满足数据中心形式的信息数据库建设数据库和应用系统相关数据 库,以及运行于其上的业务系统、查询系统、数据分析系统的要求,必须增强数据存储核心, 选择高性能存储阵列,LUN 数量应≥2048,系统 IOPS≥240000(吞吐量大于 1540 M/S) 。 其基本性能需求分析如下: 1、在存储系统中,处理器主要完成 I/O 处理、Cache 控制管理、数据传输控制以及一 些智能化的软件运行功能,处理器的能力直接影响到整个存储系统的性能。考虑到不同厂商 存储所采用的 CPU 性能差异较大、主处理器所承担的任务也有所区别,应在给出实际处理 器配置数量的同时给出性能指标、承载任务分析,CPU 实配数量不低于 16 个。 2、磁盘本身性能也决定存储系统整体性能,通常磁盘性能以转速、寻道时间等技术指 标衡量,考虑到性价比,推荐采用 15K rpm 的磁盘。 3、对于数据库等大数据量访问应用,缓存越大,性能越好,本项目实配存储容量应与 Cache 的容量配置成比例配置,按大于 16GB 考虑,最大可扩展到 128GB。
11.4.4 负载均衡系统设计 考虑到系统的高并发访问量和系统应用需求的快速增长,项目建设明确制定了 Web 服 务层、应用服务层规划:走横向扩容、持续发展的道路,以服务器群、交易中间件满足不断 增长且趋于复杂化的用户访问请求、提高访问处理和响应能力。遵循这一规划,Web 信息 发布层、应用服务层考虑了以下因素: 1、支持横向扩容的负载均衡器。 2、提高系统可靠性的集群或热备技术应用 3、各层服务器本身构架、性能、配置要满足需求。 本系统中采用业界领先的全千兆负载均衡解决方案: (千兆光纤端口+千兆以太网端口) 方案中,可以采用两台 IP 应用交换机 BIGIP 安全流量交换机 6400 作为冗余,为中间 件服务器和应用服务器做负载均衡,并且 SSL 加速功能。所有服务器均配置冗余千兆网卡
155
与两台 BIGIP6400 相连,这样无论是其中的一个服务器网卡故障还是一台 BIGIP6400 故障, 都不影响业务的正常运行。
图 11-5 负载均衡设计图
方案的特色: z
实时监控服务器应用系统的状态,并智能屏蔽故障应用系统
z
实现多台服务器的负载均衡,提升系统的可靠性
z
提供服务器在线维护和调试的手段
z
可以对服务器提供流量限制和安全保护
156
11.4.5 应用服务器、浏览服务器和数据处理前置机设计 应用服务器层主要负责业务逻辑处理,用户请求的连接处理和数据库端或其他应用系统 的连接处理,以及业务处理过程实现。用户多层体系结构要求应用服务器与 Web 服务器物 理独立,考虑到应用服务器对处理能力、系统稳定性的要求均大大高于数据表现层,关键应 用采用 Unix 服务器,其他应用可考虑刀片式微机服务器,建立多机集群环境。 本 方案中间 一 的应用服 务器采用中 档 UNIX 服 务器,实 配 单台处理 能 力不低 于 70000tpmC,中档 UNIX 服务器 采用 4 路 1.45GHz CPU(可扩≥8 路) ,8GB 内存(可扩≥ 64GB),73G 硬盘 2 块,4 块千兆光纤网卡。 浏览服务器群和数据处理前置机采用工业级刀片服务器,每台配置 2 路 Xeon MP2.7GHz CPU(可扩≥4 路),8GB 内存,2 块 73GB 硬盘,2 块 2GB 千兆光纤通道卡。系统架构中 该层面应不少于 2 台小型机,4 台微机服务器,以满足峰值下信息访问的需求。
157
第十二章 海量存储系统设计 以传统的方式存储和管理日益增长的数据,意味着你需要不断地增加磁盘,投入更多的 人力与物力,导致成本上升。以优秀的分级存储软件和自动磁带库系统,即可以轻松实现海 量数据存储。
12.1 海量数据存储系统架构方案 考虑到海量存储系统是 IT 构架的核心模块,这里存储网络架构采用双 Fabric 网络结构, 这种结构一方面带来了高可用性,另一方面提供了更多的数据通信带宽。下面是海量存储系 统的双 Fabric 网络结构图:
图 12-1 双光纤通道结构 其中网络核心采用 director 级别的核心光纤通道交换机 1 台(端口数>=128),通过在其 内部划分虚拟 SAN 分别构成两个独立的 fabric;为保证高可靠性和提高系统的运行速度, 存储工程师在各服务器群的每台主机上都通过两个 HBA 连接到不同的 Fabric 网络中,而且
158
存储设备(磁盘阵列和磁带库)也是同时接入两个 fabric,这样构成了一个无单点故障的网 络系统。 双 Fabric 存储网络设计要点和优势: z
主机和存储设备的冗余连接,整体提高系统的可靠性
z
主机和存储设备的双路连接,工作在 Active-Active 模式,整体提高系统的性能
z
双网络结构设计,提高网络的可靠性,避免由于意外系统故障造成网络中断
z
双网络结构设计,核心-边缘体系架构,方便未来网络的扩充
z
交换机具有很强的向下兼容性,即可兼容 1G 的交换机,又可兼容 1G 的存储设备, 如磁带库等设备都可直接连接到交换机中,提高设备的利用率
z
可做 LAN-Free 备份,减少备份对网络带宽的占用,整体提高数据备份和恢复的速 度
z
有利于系统的在线维护和扩展,而不影响系统的正常运行
z
采用硬件实现的网络安全性管理,保证数据的安全性
与外部存储网络的互联方案 外部存储网络的接入是为了更好的提供基于数据复制(异步或同步)的容灾服务。本着 为客户各部门不同容灾需求服务的原则,这里存储工程师设计了采用三种形式的存储网络外 部互联方案,即: FCIP 接入方案 DWDM 接入方案 SDH 接入方案 在 100Km 以内的连接上这三种接入方案的特点如下: 表 12-1 外部网络存储通道比较 DWDM
SDH
FCIP
可以满足连接要求,完全
可以满足连接要求,在带
可以满足连接要求,链路带
满足性能要求;链路可以
宽许可的条件下可以满
宽由 IP 保证,一般条件下
复用,高效率,高性能, 足性能要求,实现同步数 高成本。
只能实现异步数据通信。
据传输/复制。
无论是内网还是外网及互联网存储网络,这里在外部接入采用同样的技术和拓扑结构, 只是由于内网的数据量较少,采用端口数少的 SAN 路由器,SAN 路由器的数量也应当适当
159
减少。具体拓扑结构如下图所示:
图 12-2
SAN 及扩展 IP 网络连接
注:为了清晰明了的原则,这里将服务器和局域网的连接省略。 如图 12-2,FCIP 接入方案将 SAN 路由器接入核心交换机,从链路冗余的角度出发,SAN 路由器分别接到不同 fabric 中,同时 SAN 路由器会接到局域网的千兆交换机上;这样就可 以通过 SAN 路由器的 FCIP 功能将 FC 协议转换为 IP 协议,通过 IP 网络与远端的某部门计 算中心的 SAN 路由器互联,在通过该路由器的协议转换将 FC 协议传输到该部门的 SAN 网 络中,从而将容灾中心和该部门的存储网络互联,使得两个存储网络中的设备可以实现基于
160
FC 的高速数据通信。 如图,DWDM 接入方案将 SAN 路由器接入核心交换机,从链路冗余的角度出发,SAN 路由器分别接到不同 fabric 中,同时 SAN 路由器会接到 DWDM 设备上;这样就可以通过 DWDM 设备的波分复用功能将多条 FC 通信,通过裸光纤传输到远端的某部门计算中心的 DWDM 设备,通过它的解复用功能,再通过 SAN 路由器将容灾中心和该部门的存储网络互 联起来,使得两个存储网络中的设备可以实现基于 FC 的高速数据通信。 如图,SDH 接入方案与 DWDM 方案类似,将 SAN 路由器接入核心交换机,从链路冗 余的角度出发,SAN 路由器分别接到不同 fabric 中,同时 SAN 路由器会接到 SDH 设备上; 这样就可以利用 FC over SDH 技术,通过 SDH 网络将数据传输到远端的某部门计算中心的 SDH 设备,进而再通过 SAN 路由器将容灾中心和该部门的存储网络互联起来,使得两个存 储网络中的设备可以实现基于 FC 的高速数据通信。 这里之所以采用 SAN 路由器,主要是在不同的 fabric 间提供路由服务功能。路由服务 功能正是可以将不同的 Fabric 网络逻辑地连接在一起,在不同的 Fabric 网络上共享存储资 源,这一功能可以充分利用分离 Fabric 的种种好处,提供误隔离和方便管理的能力。 路由服务可以隔离 SCN 和 RSCN 等功能。如在一个 Fabric 中产生的 RSCN,可以通过 路 由 服 务 隔 离 , 不 会 传 到 另 外 一 个 网 络 中 , 可 以 避 免 由 于 RSCN 造 成 的 Fabric Reconfiguration;另外,也可以隔离由于设备原因,造成主机之间的相互影响,提高系统的 运行效率。对于远程连接网络,这一点尤其重要。 方案中将不同应用的数据备份到容灾中心的磁带库之中,而又不影响两个系统的相对独 立,所以采用 SAN 路由器将不同的 Fabric 网络互连。连接到 SAN 路由器的 Fabric 被称为 边缘 Fabric,由于 SAN 路由器可以有效隔离不同 Fabric 网络之间的相互干扰,这就允许用 户建立更大规模的 SAN 网络,确保系统具有更为强大的扩展能力。 通过路由服务,每个边缘 Fabric 都保留自己独立的 Fabric 服务:名称服务器、分区数 据库、路由表、域 ID 空间,等等。这就是说,假如一个 Fabric 有一个域 ID 1 交换机,另一 个 Fabric 也有一个域 ID 1 交换机,但没有该多协议路由器,这些 Fabric 就不会合并,除非 这些冲突得到解决。在生产环境中,解决这些冲突是一个非常耗时和危险的过程。有了多协 议路由器,这些冲突就成了无关的问题。 在 SAN 路由器平台上,其他 Fabric 通过路由功能与路由器相连接。这可以防止 WAN 链路上的故障转化为影响整个容灾中心 SAN 或某部门计算中心 SAN 的事故。这个优点很重
161
要,因为一般的远距离连接链路(裸光纤/DWDM/SDH/IP)的都有一定的不稳定性。一条不稳 定的远程连接链路可能会干扰数据中心的 SAN 应用,但是路由器可以将这些干扰与数据中 心的 Fabric 隔离开。
12.1.1 磁盘阵列存储设施 海量存储的核心对象是数据,因此数据的存储设备是海量存储系统的核心设备。如前所 述,采用 SAN 网络,可以将海量存储系统存储的数据实现集中存储,实现集中存储的存储 设备形成存储池。本处描述海量存储系统基于磁盘的存储实现。 根据对该海量存储系统的需的分析,以及根据“按需扩展”的原则,这里初步设定海量 存储系统的存储池容量 50T。该容量可以基本满足未来一段时间内的需要,随着容灾业务的 发展,更多的容量可以通过扩展更多的存储磁盘阵列来实现。 根据海量存储系统服务用户数量众多,数据访问 IO 频繁的特点,选择的磁盘阵列应该 具有如下特点: 1.
应该选择性能较好的光纤磁盘阵列,保证良好的读写性能和可靠性。
2.
磁盘容量应该尽可能的大。考虑到主流磁盘阵列的容量、经济型、以及磁盘阵列的 集中管理的便利性,尽可能采用大容量配置的磁盘阵列机柜。目前建议采用磁盘阵 列的最大容量大约为 30T 的产品。。
3.
磁盘阵列应该附带有强大的磁盘管理软件,实现磁盘阵列的分区、访问控制、容量 扩展等功能。
4.
存储设备支持广泛的服务器平台。光纤磁盘阵列应该支持目前所有流行的主流 UNIX 和 NT/2000、Linux 操作系统和服务器,并且应该允许尽可能夺得服务器同 时连接到光纤磁盘阵列上。
5.
海量的扩展能力。可以仅仅通过增加磁盘,就达实现容量的扩展。应该支持不同容 量的磁盘混合共存在同一盘阵内,为用户今后容量的扩展打下基础。在实际应用时, 应该留出富裕的盘柜位置,以便在同一盘柜中较方便地实现扩展
6.
具备强大的数据复制功能。光纤磁盘阵列应该支持快速磁盘拷贝、远程容灾等先进 功能,为将来功能的进一步扩展打下基础。
7.
磁盘阵列支持支持多种 RAID 处理,和保留 Hot Spare 硬盘的功能。
162
关于磁盘存储池的设计实现,以下是一些考虑: 1.
为了实现海量存储系统内网应用容灾的安全性,海量存储系统内网的数据存储设备 将和其他数据存储设备分开。根据内网数据的大小,可以选择容量小一些的磁盘阵 列,或者减少磁盘阵列柜的数量,但存储设施的架构基本相同。
2.
为了便于管理,建议先期采用同一厂家和型号的产品。
3.
建议先不考虑对存储池做虚拟存储管理。因为虚拟存储会影响数据存储的性能,其 优势在于管理众多异构的存储盘柜。可以在将来容量快速增长之后,考虑虚拟存储 管理技术的应用。
4.
为了便于充分使用,每个磁盘阵列需要分成不同的卷。为了实现不同数据的安全, 可以将不同的卷加入到不同的 SAN 网络的“分区”中,实现数据卷的逻辑隔离。
5.
考虑到中心需要管理的数据卷较多,可能需要对用户卷信息进行管理,如果磁盘阵 列附带软件没有设这一功能,可以通过磁盘阵列管理软件提供的 API 进行开发。
以上磁盘存储池的设计,没有考虑为特殊用户提供的磁盘阵列数据镜像(该方案在后面 的章节描述)服务存储能力。该阵列中的数据,主要是通过远程备份、数据文件复制、数据 库复制等服务软件,为用户保存的数据。 有些部门已经具备某些某种型号的磁盘阵列,如果实现磁盘阵列级的数据复制和容灾, 往往需要海量存储系统提供同构的磁盘阵列。在这种情况下,本海量存储系统可能需要根据 具体方案提供相对应的磁盘阵列。对这种海量存储系统需求,事先采购大量的磁盘阵列是不 经济的,也是没有必要的。因此,对这种需求,应该在海量存储系统的场地和网络设施基础 上,设计专门的方案,来实施实现。在本方案设计中,仅仅作为一种扩展考虑,不作为当前 实施实现的一部分,也不纳入预算。 根据对用户数据量的分析估算,建议海量存储系统一期购置的存储设施为: 1. 内网磁盘阵列。容量为 10T,包括机柜,机头,磁盘以及相应高级功能和管理 软件。 2. 外网磁盘阵列。容量为 30T,包括机柜,机头,磁盘以及相应高级功能和管理 软件。 3. 存储管理服务器,中端的 PC 服务器即可。
163
图 12 -3
海量存储系统扩展
12.1.2 磁带存储设施 数据备份是海量存储系统的核心业务,因此数据备份最终存储设备是海量存储系统的核 心设备之一。如前所述,采用 SAN 网络,可以将海量存储系统存储的数据实现集中存储, 实现集中存储的存储设备形成综合存储池。本处描述海量存储系统基于磁带的存储实现。 根据对海量存储系统需求的分析,以及根据“按需扩展”的原则,海量存储系统的磁带 库存储容量按照 100 个单位,每个单位 600GB 备份量,备份周期为 1 周,2 周轮换磁带, 至少需要 200GB 磁带 600 盘,考虑到冗余和其他因素,初步设计海量存储系统的磁带库存 储容量为 1000 盘。该容量可以基本满足未来一段时间内备份的需要,随着容灾业务的发展, 更多的容量可以通过增加扩展柜和磁带槽位,或采用更多的磁带库来实现。 根据海量存储系统服务用户数量众多,数据访问 I/O 频繁的特点,选择的磁带库应该具
164
有如下特点: 1.
即时、按需提供存储空间特性,使海量存储系统可以立即增添所需要的存储空间, 并只为所需要利用的存储空间付费。
2.
成熟的存储网络互操作能力,意味着无缝集成到新的、或现有的 SAN 网络当中。
3.
集成的存储网络资源管理,为用户提供 SAN 设备和网络视图和设备级 SAN 安全 控制机制。
4.
可以同时装载大量磁带机驱动器,以获得最高的性能和配置的灵活性。
5.
支持 LTO、AIT、SDLT/DLT8000 和 3590 等磁带机技术,通过方便的技术迁移和 升级途径。同时支持混和磁带介质管理和操作。
6.
拥有众多高可用性特点,包括支持热更换电源、双磁带库控制器、热插拔磁带机 驱动器等。
7.
拥有每秒钟清点 5 盘以上磁带的高性能机械手;可以快速自动发现新配置、自动 校准所有部件。
8.
智能存储管理工具包含远程监控、自动报警和虚拟磁带库等功能。
关于磁带库的设计实现,以下是一些考虑: 1.
为了实现政务内网应用容灾的安全性,政务内网的数据存储设备将和其他数据存储
设备分开。根据内网数据的大小,可以选择容量小一些的磁带库,或者减少磁带槽位的数量, 但存储设施的架构基本相同。 2.
为了便于管理,建议先期采用同一厂家和型号的产品。
3.
建议远程的数据服务首先将数据备份到磁盘阵列上,再将数据导入磁带库;磁带库
除了完成对外服务(如远程备份)外,需要对内的数据备份提供服务。 4.
为了便于充分使用,每个磁带库可以按需要分成不同的虚拟磁带库(分区)。为了
实现不同数据的安全,可以将不同的虚拟磁带库加入到不同的 SAN 网络的“分区”中,实 现数据逻辑隔离。 磁带库部署图请参见存储网络设计。
12.1.3 介质存放设施 介质存放设施 在海量存储系统中需要保存各种移动数据存储介质,由于这些介质的数量会随着海量存 储系统的运作和时间的推移而变得越来越多,所以有必要为这些介质设计和建设存放场所和
165
空间——介质仓库,一方面便于介质的保护,一方面便于介质的查找。海量存储系统介质仓 库的系统功能如下: 入库管理 海量存储系统介质入库的环节尤为重要。要求能够按照容灾计划做到即时确认、及时补 充。 库管理员根据手中的手持终端(Handheld Terminal,简称 HHT),调用后台资料,与容 灾计划资料进行实时比照,并可通过终端无线驱动打印机打印对照表; 库管理员根据实时对照表,现场决定介质是否缺失,通过终端调用后台数据库通知容灾 用户,以最快速度取回需要入库的介质;保证介质库中介质的可恢复性。 上架 将介质存放到架位上,要求介质价位应当可以保存各容灾部门所使用的所有格式磁带、 光盘等介质。 架位管理 通过条形码及后台数据库系统对介质存放的架位进行统一的管理,确认哪个介质存放在 哪个架位;可定时由库管理员实时检查介质存放的正确性。 通过终端或管理控制台实时地查看架位的存储情况、空间大小及介质最大容量/可用容 量,管理仓库的区域、容量、体积和仓储限度。 系统可以支持介质和架位的反复排定和追踪管理;避免实际现场的错误堆放;使之有序、 易于比较和修正现场与系统管理的信息差异;显示、查询介质和架位的使用历史资料。 查询管理 在任何时间和地点,都可以通过终端进行查询;查询内容包括:介质信息、存储情况、 有效期等等; 每次查验可以包括该项诸多信息的逐一核对,并反馈给系统有效结果。 现场实时查询和容灾恢复的现场实时指挥工作变得方便容易。 介质追踪管理 在介质的整个生命周期中,从产生、入库保存、调用、归档直到销毁,对每个介质的信 息进行追踪管理。 调用管理 完成调用要求检查、所有须用介质的查询和发送等工作
166
维护管理 对介质定期做防霉、防粘等维护工作,防止介质的损坏。 安全管理 设置介质库门禁和监控系统,防火、防盗。 介质存放设施管理系统架构 介质存放管理系统拓扑结构示意图如下:
图 12 -4 介质存放管理系统拓扑结构 如上图 12-4 所示,整个介质存放管理系统分为计算机管理系统和人工介质存放库两部 分组成,其中介质管理系统主要通过条形码对介质进行统一的管理,为快速的查询和自动化 的管理提供基础平台;介质库主要负责介质的存放,为数据存储介质提供安全的、防范各种 危害(霉变、火灾等)的存储空间。而对外服务系统为容灾单位提供网上查询功能。注:内 网和外网需要各建立一套管理系统和介质库。
12.2 备份系统设计 针对海量存储系统的备份实现,以下图示(图 12-5)的是统一的实现架构。
12.2.1 远程备份容灾 远程备份(e-vaulting)级别容灾满足哪种需求 针对对于恢复时间要求较高,而且有可能还没有在本地实施备份系统的的部门,通过远 程网络直接将数据备份到海量存储系统的存储池中,可以大大提高容灾系统的 RTO 和 RPO,
167
由于海量存储系统具备最为妥善的介质保存措施,不但可以将这些备好数据的介质安全的保 护起来,而且可以最大程度地保证介质的数据可恢复性。
图 12-5 统一实现架构 采用这种容灾方式,一般要求恢复的数据时间点在灾难发生前的几十分钟到几个小时; 而从灾难发生后,需要完成从恢复系统、恢复数据、直到实现对外提供应用服务这么一整套 的恢复工作,所需要时间大约为几小时到一天。 工作流程 远程备份级别容灾的工作流程如下图所示: 首先海量存储系统按照事先和各部门协商所制定的容灾计划,定期(每天的某个时刻) 自动启动各部门的备份工作,将数据备份到海量存储系统的存储池中。 备份数据会按照部门、日期、保存时间、数据类型等关键信息分类地存放在存储池中, 同时会再空闲时备份到磁带中,并被保存到温湿环境适当、门禁严格、可防范多种灾害(如 火灾、水灾等)的安全区域,海量存储系统还为这些数据建立了完善的数据库及其应用管理 系统,以便快速的存取,并提供网上的数据备份查询服务。 而当出现故障或自然灾害等灾难时,在出现灾难的部门的本地数据备份完全丢失的情况
168
下,海量存储系统可以按照该部门的要求将完成数据恢复所需的所有数据通过网络恢复到该 部门指定的备用服务器上,由该部门的技术人员(或在海量存储系统技术人员的协助下)完 成应用的重新启动和对外开放;海量存储系统也可以按照该部门的要求将将完成数据恢复所 需的所有物理介质通过人工运输到该部门指定的地点,由该部门的技术人员(或在海量存储 系统技术人员的协助下)完成数据恢复工作。 整个备份恢复的过程如果完全采用网络传输,甚至在本地不需要做备份;所以如果该部 门技术人员甚至不需要掌握备份和恢复技术,在实施时可以大大加快进度。
图 12-6
远程备份级别容灾的工作流程
上述是一种原理性的容灾实施步骤,简化的标准可实施的流程如下: a)
和相关需要远程备份级别容灾的部门的技术及业务一起制定详细的 DRP 计 划,包括备份策略、恢复策略、双方指定联系人等;
b)
必要的话,海量存储系统可以对该部门人员(技术和业务)进行容灾知识培训, 并帮助其完成 DRP 计划;
c)
海量存储系统协助该部门完成远程备份系统客户端及安全通信网络的搭建;
d)
海量存储系统和远程备份部门按照 DRP 计划,按期执行远程备份工作;
e)
在海量存储系统将数据保存在存储池中的同时,制作一份磁带拷贝副本,并将 其分门别类地存放在具备良好存放条件的远程备份区,同时要建立完备的数据 备份数据库和管理系统;
169
f)
数据保存期间,海量存储系统负责监控数据的安全性;而备份的磁带介质在存 放期间,海量存储系统一面要按照保存的时效完成介质的更换或归档;一面定 期对介质进行倒带、防霉等维护操作,
g)
各远程备份部门可以通过海量存储系统对外开放的服务系统,完成诸如查询数 据备份记录,更改 DRP 计划等工作;
h)
海量存储系统应当配合远程备份部门定期实施 DR 演练,确保 DRP 计划在灾 难真正来临是起到真正的作用;
i)
当灾难来临时,按照预先制定的 DRP 计划,快速实施数据恢复工作。
系统架构 远程备份/容灾系统在海量存储系统的总体逻辑拓扑结构如下图所示:
图 12-7 远程备份/容灾逻辑图 整个系统主要由备份服务器、备份用磁盘阵列和磁带库三部分组成。此外备份客户端安 装在远程的各部门服务器上,而网络主要完成数据的可靠和安全传输。 为了保证 7x24 的备份服务,无论是内网、外网还是互联网都是各由多台服务器组成一 个备份服务器集群,当集群中某台服务器出现故障时,可以由其他服务器接替它的的工作。 而备份服务器的主要工作有: 在执行远程备份操作时,指引远程传输过来的备份数据流向备份用磁盘阵列;而在空闲 时(没有远程备份操作时),再将磁盘阵列的数据备份到磁带库中。
170
磁盘阵列是远程备份的近线存储,主要是为了提高备份的速度,最好地利用网络带宽。 磁带库负责最终保存备份的数据。 而远程备份管理应用系统主要负责远程备份的自动化管理;在数据到备份到存储池中 时,海量存储系统的远程备份管理应用系统就会及时地将备份数据的相关信息保存起来。这 样远程备份管理应用系统中就会保存有所有远程备份的相关信息,一方面供海量存储系统内 部管理使用,一方面可以允许用户可以通过 Web 浏览器查询自己的相关容灾信息。同样为 了安全起见,这里建立了内网和外网两套管理应用系统。 远程备份容灾系统的特点 z
容灾的 RTO 和 RPO 时间较短,可以满足大部分应用容灾需求
z
要求各部门在本地服务器安装软件
z
连续的在线备份方案
z
数据可以获得最为安全的保护
z
可靠性和可恢复性更高
z
投资成本较高
远程备份容灾系统需要考虑的要素: 为了有效的提供远程备份服务,不能简单的将现有的本地备份技术应用于远程备份,因 为这样将使得远程备份的成本、效率和服务质量非常低下,从而严重阻碍远程备份服务的开 展。因此在建设远程备份系统时,需要在现有的备份技术基础上着重考虑以下几个因素: z
减少存储投资
一方面是解放硬件资源,降低实现同一任务所需要的设备要求;另外一方面是资源的充 分利用,解决如何降低磁盘容量需求,提高磁盘利用率等因素,降低客户在享受该服务时需 要支付的设备成本。 z
减少网络带宽需求
带宽对于本地备份而言不是关键问题,但如果需要实现异地备份,则是非常重要的一个 成本因素,如果用户为了享受该服务而必需支付昂贵的带宽租用费的话,那将是一个非常高 的成本。因此需要采取一切措施减少远程备份所需要的带宽资源。 z
提高服务质量,保证服务级别
提供远程备份服务的目的是保证用户系统在出现故障后能够恢复、并且能够在规定的时 间内恢复。
171
z
降低管理费用
对普通的存储系统而言,按照 Gartner Group 的报告,其管理费用是购置成本的 8 倍。 对几种存储系统而言,管理变得更复杂,对服务的要求更高,这一比例相应更大。管理费用 分为两个部分:对设备的维护管理和提供的服务。先进的技术,规划良好的系统结构和专业 人员队伍能极大地降低维护费用。 z
客户端的多样性和服务平台的统一性
由于备份客户端会因为不同部门的不同应用而不同,但在海量存储系统可以采用统一平 台的备份服务器为各种备份客户端提供服务。 z
外网/互联网与内的区别
外网/互联网的数据大、服务多,所以采用的服务器数量较多,内网的服务器数量较少。
12.2.2 存储资源监控 存储管理和监控对于了解、监控与管理规模较大的存储网络是十分必要的。对于容灾系 统,这些管理可以有效的帮助位于数据中心与管理中心的管理人员从网络、系统层面上进行 全面集中的监控,为将来的发展以及整个存储网络的管理搭建管理框架,并且进一步保证各 子系统的管理与维护。 存储资源管理(SRM)是一组互为补充的产品、标准和进程,用来对物理及逻辑存储 在可用性、容量、配置和性能等方面进行报告,分析和自动管理. —引自 Gartner 简单地说,SRM 提供了一个有关存储网络中的存储容量及其使用状况的动态视图,从 而使管理员可以从一个中心管理控制台监控其所有存储设备的状态。即存储资源管理负责管 理存储网络上的各种系统,包括数据库、邮件系统、磁盘阵列、NAS、备份系统等对硬盘空 间、磁带库空间的使用管理;监控、预测、分析并以各种报表的方式呈现。其主要功能包括: 1.空间管理——搜集空间的使用信息,监控空间的使用,实现配额管理、预警、空间 回收、数据迁移 2.容量规划——收集容量消耗的历史信息,提供容量消耗速率报表,从而辅助完成容 量的规划 3.资产管理——收集存储资产信息,提供额外的元数据输入 4.事件管理——监控、诊断以及在必要时修复存储 5.性能管理——收集存储资源的性能数据,提供性能分析报表,在物理的极限内提高
172
存储资产的性能 6.配置管理——决定如何对已有的物理存储资源作出最好的安排 用于将这些多种多样的功能串接起来的公用线索是——它们都是元数据驱动的。元数据 (Metadata,关于数据的数据)汇集了每个被管理的存储对象的信息,包括数据文件(大小、 创建日期和属主)和物理存储系统(容量和性能特征)。 这些信息可以被那些负责存储的管 理员、数据库管理员,IS 规划人员以及 IS 执行人员用来辅助决策。 SRM 是对许多具体的存储管理功能的新的分类方法——例如容量规划和空间管理(这 些功能已经出现很长时间了)。这种在 SRM 下的重新分类简化了自动化的任务并隐藏了这 些管理任务的复杂性,因而可以帮助 IS 向存储公用设施方向发展。
12.2.3 存储网络管理 负责发现、监控与管理整个存储网络,以及网络的连接性、每个节点的状态、网络可用 性、系统性能等等,完善的事件管理可以将事件及时地以各种方式报告给管理员。同时,还 可以对光纤交换机等网络设备进行配置管理。 更具体地说,对各交换机经常查看其所处 SAN 架构的运行状况,及早发现潜在问题并 自动向网络管理员报警,从而消除了隐患,避免了故障的进一步升级。 通过跟踪广泛的 fabric 事件,为 SAN 解决方案传递出了最有价值的信息。例如,它应 该监控: z
Fabric 资源,包括 fabric 重新配置,zoning 变化和新的设备登陆/退出,ISL 的状态 变化或中断等
z
交换机等存储网络设备的环境功能如温度,电源和风扇状态以及高可用性的度量值
z
既可以监控多端口级别的端口状态转换,错误和流量信息,并指定端口性能的监控 范围,也应该监控所支持的 FINISAR 的“ 智能”SFP 模块的各种状态。
z
监控 SAN 网络的安全性,记录非法登陆的时间和次数
在监控到各种要素发生规定范围外的变化,应自动、及时地通知管理员,通知的方式应 有如下几种: 1. 通过向指定 e-mail 地址发送信息的方式提供事件通知
173
2. 通过简单网络管理协议(SNMP)发通知 3. 事件记录(Event Log)条目记录事件 4. 通过锁定端口记录 5. 通过 UNIX 的标准系统记录和事件接口集成在一起的 SYSLOG 发通知 同时,网络监控的参数应可快速配置,并可将监控功能集成到一些企业级管理软件中。
12.2.4 系统监控管理 系统管理软件能够帮助 IT 管理部门持续的监控分布式的异构系统和网络设备的运行状 态,它可以支持 OS/390、z/OS、UNIX、Linux、Windows、OS/400、Tandem NSK、Open VMS、 PalmOS、MVS 等几十种操作系统确保管理的扩展性,并且提供非常灵活的体系架构从而有 利于管理范围的伸缩行。海量存储系统系统要求系统管理软件具有内置的智能包括高级事件 关联 Advanced Event Correlation (AEC)可以提供根源分析的能力,快速隔离非根源事件 并迅速发现故障原因。
12.2.5 服务管理 服务水平管理 海量存储系统实际上是一个数据存储,备份和再处理中心,为各种用户提供高质量的 IT 服务;为此需要海量存储系统具有很高的服务水平(Service Level)。以往一般是依靠严 密的数据中心管理制度等人为方法来保证,但多年的实践经验说明需要采用可视化的、量化 的管理方式和手段,所以容灾在制定完善的服务水平管理规范的同时,也要采用高效的管理 软件实现计算机化的管理,提高服务响应速度和水平。 服务水平要求是一个综合的、基于 Web 的解决方案,能够管理跨越整个海量存储系统 基础架构的预定义的服务目标。它能够直接从各种不同来源包括基于 SNMP 的应用程序和 网络服务如 SMTP、POP、NNTP 和 HTTP 等方面收集可用性和性能数据,其高级配置工具 应当允许管理员设置批量报告产生的时间间隔。服务报告基于这些数据产生。 运维管理
174
运维管理包括运维规范和辅助的运维管理系统。运维规范在《运行维护》一节做详细阐 述。 运维管理系统是一个综合的、集成的智能服务台解决方案,它可以接受通过 Call Center 或 Web 界面手工提交的问题,也可以自动接收事件管理平台转发的问题,并且按照规范的 处理流程完成问题请求、变更管理以及服务水平管理,科学的自动的完成人力资源分配,确 保每个问题及时解决。 基于运维管理系统建设的 IT 服务支持系统是整个系统管理体系的核心。它把用户、各 级支持人员、被管理 IT 系统和监控管理软件有机的结合起来,通过服务台提供的标准化管 理模式协同工作,使整体 IT 服务支持体系达到高效、有序、迅捷的预期目标,从 IT 服务支 持的基础方面保障各项业务系统的高效运行。
12.3 海量存储系统扩展能力分析 在本方案的设计中,必须足够重视 IT 环境系统建设的可扩展性,导致海量存储系统 IT 环境可能需要扩展的原因包括: z
用户数量的增加;
z
本方案的实施需要分期进行,初期方案必须考虑未来的扩展性
z
需求不明确的情况下,逐步发展
z
用户的需求的不断变化,新的关键应用的出现。
z
容灾级别需要升级,以抵御更大范围的风险需要。
以上需求的变动将可能导致海量存储系统如下方面的扩展需要: z
数据扩展能力:海量存储系统存储数据容量和能力的变化
z
应用扩展能力:海量存储系统增加新的用户容灾功能,满足用户新的容灾需要
z
网络扩展能力
z
场地扩展能力
z
管理扩展能力
175
下面就以上各方面的扩展实现能力进行论述。
12.3.1 数据扩展能力 随着用户数量的增加,以及用户积累数据的增加,海量存储系统的数据将不断增长,因 此海量存储系统需要首先具备数据扩展的能力。 由于采用了海量存储系统 SAN 网络存储结构,因此数据容量的扩展相对比较容易实现, 只要购买新的存储设备,直接接入光纤交换机,经过配置管理软件的恰当设置即可。 数据扩展需求一般表现在如下 2 个方面 z
同一用户原来设置的容量不能满足用户使用,需要扩展容量(包括减少容量)。 对这一需求,一般可以通过存储管理的管理软件,进行动态扩展即可。
z
为新的用户提供存储容量(包括取消老用户的存储容量,以便重用) 通过存储管理软件,可以进行容量的增减。
为了更好地实现海量存储系统地数据扩展能力,需要在扩展数据存储能力时,注意如下 几个方面: z
尽可能为用户一次提供合理地空间。虽然通过存储设备的管理软件可以实现数据容 量的动态调整,但动态调整后,磁盘的重构需要的时间一般较长。
z
注意光纤交换机端口数的变化。尽管目前接入交换机的端口数量够用,但要避免随 着海量存储系统的发展,导致交换机端口数太少,使得存储设备的接入困难。一般 来讲,出现交换机端口数太少的情况,表明 SAN 网络中需要增加新交换机,要合 理设置交换机之间的连接,避免出现数据传输瓶颈。
z
每个存储磁盘阵列在规划时都应该预留存储扩展能力。在同一盘阵中进行容量的动 态扩展,相对容易一些。
一般而言,存储容量接近总物理容量的 70%时,就需要考虑购买和添加新的存储设备。 新的存储设备容量应该尽可能比较大,一方面减少单位存储容量的成本,另一方面也便于管 理。 在购置新的存储设备时,采用同一系列的存储设备,采用同样存储设备管理软件,可以
176
减少管理复杂度和管理成本。同时注意购置存储设备的相关性能指标(例如支持的主机数 等), 建议先期先不采用虚拟存储软件对存储设备进行同一管理。在将来有必要时,可以考虑 采用虚拟存储管理软件降低存储容量管理的复杂度。
12.3.2 应用扩展能力 由于用户需求的不断增长,以及新的容灾技术和方案的出现和发展,海量存储系统的应 用扩展将是不可避免的。本海量存储系统在设计时充分考虑了容灾应用的扩展能力,可能的 扩展需要和实现策略分析如下: 1)通过原有容灾设施的配置来满足相同用户端应用容灾的数量扩展 在设计和采用容灾技术和方案时,注重了容灾技术和方案的开放性,容灾方案中的架构 和产品尽可能采用开放式平台,通过“一对多”的模式,以少量的设施为同时众多的用户端 应用和数据提供容灾服务。 这样,当仅仅是拓展相同的用户端应用时(利用相同的数据库、相同的操作系统等), 可以通过简单的设置来实现应用的增加。满足相同应用容灾需求的扩展。 为了实现“一对多”的服务模式,在选择中心的技术和产品时,还应尽可能考虑对用户 端操作系统的开放性。尽量避免由于用户端操作系统平台的不同,海量存储系统不得不重新 布署新的设施和产品。 但考虑到海量存储系统是一个服务对象数量总多的公共中心,因此,在采用“一对多” 的模式下,也可能性能、操作系统平台的不同等原因,一套通用容灾平台和设施无法满户足 够数量的要求,在这种情况下,就需要考虑增加新的容灾设施来扩展容灾能力。 2)通过增加新的容灾应用满足新的用户端容灾需要 在如下情况下,需要考虑增加新的容灾设施满足新的用户端容灾需要:a)原有容灾设 施由于性能的原因无法满足众多用户的需要;b)由于原有的容灾设施无法满足用户端操作 系统的需要;c)用户端有新容灾需要海量存储系统采用新的容灾方案、部署新的容灾设施 (例如 iSCSI 技术等等) ;等等。
177
这时,可以通过在海量存储系统直接设计新的容灾方案、部署新的容灾设施来实现。这 依赖于海量存储系统网络扩展能力和场地扩展能力。 因此海量存储系统应用扩展能力的实现,一方面依赖于原有容灾方案和部署产品的开放 性,一方面依赖于海量存储系统的运行维护和技术支持能力。归根结底,海量存储系统的扩 展能力还取决于海量存储系统的网络、场地等基础平台的扩展能力。
12.3.3 网络扩展能力 海量存储系统网络直接影响海量存储系统数据的传输性能,网络扩展能力是保证容灾网 络数据传输可用、可靠和性能扩展的需要。 具体来说,需要的网络扩展能力包括如下 z
用户的接入能力的扩展
首先要保证用户接入多路由的可能性,由于海量存储系统服务对象、以及政务专网结构 的特殊性,需要从政务专网来实现。 设定目前政务专网运行的高层协议是 IP 协议。为了保证用户端到海量存储系统端数据 传输的用户的接入性能及扩展,采用网络结构,海量存储系统的扩展容易实现。 在最初设计时,在充分考虑当前的基础上,考虑未来的网络能力的需求。 在本海量存储系统,不论是 LAN 网,还是 SAN 网,都采用了核心-边缘交换结构, 这是一种容易扩展的架构。需要关注核心交换机的富余端口的数量,做适时的扩展。必要时 升级网络设备,较少数据传输瓶颈。
12.3.4 场地扩展能力 场地扩展能力包括系统的物理空间,地理空间等等,它为海量存储系统提供最后的扩展 能力。
178
12.3.5 管理扩展能力 随着海量存储系统的逐步扩展,海量存储系统的场地基础设施、网络设施、存储设施、 服务器设施等规模会逐步扩大,其中运行的容灾应用规模也会越来越大,为了更好地支持海 量存储系统的管理,需要管理能力相应地得到扩展。 管理能力的扩展主要通过管理软件的选择实现,必要时通过开发门户管理软件来实现 应该规划管理软件的实现的主要功能及其扩展实现包括: 存储资源管理的扩展性: 存储资源管理系统应该提供存储网络上的各种系统对硬盘空间、磁带库空间的使用管 理、监控、预测和分析,并能以各种报表的方式呈现。在存储资源数量增多,存储设施类型 增多的情况下,可以考虑采用虚拟存储管理。存储资源在选择时,必须充分考虑其可管理性, 除了支持 SNMP 管理协议外,更重要的是支持 SMI 等存储管理协议,以便更好的实现可管 理性。 z
存储网络管理的扩展
负责发现、监控与管理整个存储网络,以及网络的连接性、每个节点的状态、网络可用 性、系统性能等等,完善的事件管理可以将事件及时地以各种方式报告给管理员。同时,还 可以对光纤交换机等网络设备进行配置管理。同样存储网络设施应该支持 SNMP、SMI 等协 议,以保证对其管理性的扩展。 z
系统监控管理扩展
系统监控管理应该能够持续的监控分布式的异构系统和网络设备的运行状态,应该支持 OS/390、z/OS、UNIX、Linux、Windows、OS/400、Tandem NSK、Open VMS、PalmOS、 MVS 等常用的操作系统,并通过开放的接口,确保对更多系统的管理扩展。同时,系统监 控管理软件必须提供非常灵活的体系架构从而有利于管理范围的伸缩性。 z
安全管理能力扩展
容灾系统中的安全管理涉及到了网络的安全性、跨防火墙的数据访问与数据保护、主机 的安全性、数据的安全性以及传输的安全性、审计、漏洞扫描等内容。这些都是保证容灾系 统正常运行以及安全无忧的保证。系统的安全管理功能一般应该包括:身份管理、访问管理 和威胁管理,并且安全管理系统可以提供一致的直观显示和管理功能,从而协助海量存储系 统实现安全管理。安全管理系统必须具备支持 SNMP、SMI 等多协议,并且具备良好的开放 性和扩展性。
179
z
运维管理能力的扩展
海量存储系统应该通过一个综合的、集成的智能服务台来为杭州市电子政务各应用系统 提供服务,该系统应高可以接受通过传统业务申请或 Web 界面手工提交的申请,也可以自 动接收事件管理平台转发的问题。并且按照规范的处理流程完成问题请求、变更管理、应用 升级等服务水平管理,科学的自动的完成人力资源分配,确保每个业务得到高效的解决。 管理体系的核心。它把用户、各级支持人员、被管理 IT 系统和监控管理软件有机的结 合起来,通过服务台提供的标准化管理模式协同工作,使整体 IT 服务支持体系达到高效、 有序、迅捷的预期目标,从 IT 服务支持的基础方面保障各项业务系统的高效运行。 z
集中管理门户扩展
集中管理门户提供对以上各种监控进行集中并且基于 Web 页面的管理能力。可以实现 通过任意一台浏览器,按不同的角色,集中管理各种存储系统与备份系统。集中管理门户的 扩展能力依赖于集中管理门户软件的选择,系统必须是一个开放的管理系统,能够通过非常 灵活的模块配置或者简单开发,很容易就实现管理能力的扩展。
12.3.5 容灾级别扩展 目前,高可靠性海量存储系统的设计,由于距离的限制,容灾能力虽然达到了一定的程 度,可以预防一般地域性威胁,单要提供容灾服务的级别,达到防范局部战争和地域性危害 的程度,还需要对容灾能力进行扩展。 容灾能力的扩展需要增加容灾的距离,使需要容灾的数据和应用在更远的地方实现复制 和冗余,例如在 1000 公里以外建立另外一个海量存储系统。 但建立另外一个海量存储系统,又需要庞大的资金支持。为了节约建设成本,同时考虑 到国内其他数据业务商也在规划和建设自己的海量存储系统,所以可以考虑和别的不同地理 位置的海量存储系统建立互为备份,在充分利用现有海量存储系统的基础上,将城市级别的 容灾能力扩展到跨城市的全国范围。例如可以考虑杭州和上海海量存储系统各规划和建设充 足的容灾场地和网络,为对方城市海量存储系统的数据和应用提供远距离的容灾能力。在条 件容许的情况下,还可以考虑多个城市互为备份,将城市容灾级别能力进一步提高。 由于城市间互为容灾建立于各个城市海量存储系统的首先实现上,而且实现起来牵涉的 因素较多,因此,本方案暂不对此方案的设计和实现进行论述。
180
第十三章 容灾系统设计 13.1 容灾方法的具体分析 13.1.1 灾难备份需求的衡量指标 对于大多数企业而言,提到灾难备份,最直接的反映就是增加预算,购买更多的主机, 存储设备以及相应软件。虽然这是实施灾难备份项目的一个必要步骤,但是,从“灾备方案 应是风险和成本相应平衡”的出发点来综合考虑,实施灾难备份项目的第一步应该从“分析 评估以确定灾难灾难备份需求目标”开始。 z
RTO (Recovery Time Objective)
RTO,Recovery Time Objective,是指灾难发生后,从 I/T 系统当机导致业务停顿之刻开 始,到 IT 系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为 RTO。 一般而言,RTO 时间越短,即意味要求在更短的时间内恢复至可使用状态。虽然从管 理的角度而言,RTO 时间越短越好,但是,这同时也意味着更多成本的投入,即可能需要 购买更快的存储设备或高可用性软件。 对于不同行业的企业来说,其 RTO 目标一般是不相同的。即使是在同一行业,各企业 因业务发展规模的不同,其 RTO 目标也会不尽相同。 RTO 目标的确定可以用下图来说明: 如上所说,RTO 目标越短,成本投入也越大。另一方面,各企业都有其在该发展阶段 的单位时间赢利指数,该指数是通过业务冲击分析(BIA-Business Impact Analysis)咨询服 务,以交谈、问答和咨询的方式得到确定的。在确定了企业的单位时间赢利指数后,就可以 计算出业务停顿随时间而造成的损失大小。如上图,结合这两条曲线关系,存储工程师将可 以找到对该企业而言比较适合的 RTO 目标,即在该目标定义下,用于灾难备份的投入应不 大与对应的业务损失。 z
RPO (Recovery Point Objective)
RPO,Recovery Point Objective,是指从系统和应用数据而言,要实现能够恢复至可以
181
支持各部门业务运作,系统及生产数据应恢复到怎样的更新程度。这种更新程度可以是上一 周的备份数据,也可以是上一次交易的实时数据。
图 13-1
RTO 目标确定指标图
与 RTO 目标不同,RPO 目标的确定不是依赖于企业业务规模,而是决定于企业业务的 性质和业务操作依赖于数据的程度。因此,RPO 目标对相同行业的企业而言会有些接近, 而对于不同行业的企业来说仍可能会有较大差距。 RPO 目标仍是以咨询的方式,通过与各业务部门主管的交流,了解业务流程和 IT 应用 的关系,以及通过回答问卷的方式,确定能够支持该企业核心业务的 RPO 目标。
13.1.2 重要系统灾难备份主要的实现方法 在目前的技术条件下,重要系统灾难备份主要的实现方法主要有一下几种: 1.基于应用本身的容灾――应用直接指向 2 个同时运作的数据中心,在任意一个中心 活动情况下继续工作 2.基于文件/数据库日志――通过复制数据库日志和数据文件方式,从生产中心向海量 存储系统进行数据容灾 3.基于复制磁盘容灾――通过复制磁盘 IO 的方式,从生产中心向海量存储系统进行 数据容灾,根据复制设备的不同,有可以分为: 4.基于主机
182
5.基于磁盘阵列 6.基于智能 SAN 虚拟存储设备 下面对各种方式进行一个简单比较: 表 13-1
容灾方式比较
容灾方式
RTO
应用要求
主机要求
存储要求
基于应用本身
0
极高
同构,必要
可异构
基于文件/数据库日志
>0,至少一
低
同构,必要
可异构
个 LOG 基于复制磁盘容灾(主机)
0
透明
同构,非必要
可异构
基于复制磁盘容灾(阵列)
0
透明
同构,非必要
同构
基于复制磁盘容灾(SAN)
0
透明
同构,非必要
可异构
13.1.3 灾难备份方式比较的分析 各种容灾方式下,只有基于应用本身的方式可以做到 RTO 为 0;其它方式一般需要进 行网络切换、存储切换和数据库重启等工作,RTO 一般从几十分钟到数小时不等;一般都 要求主机和数据库同步,虽然存在理论上的异构可能,但是在具体实施时会给开发/测试带 来巨大的难度,并大大降低容灾系统的稳定程度,一般不会采用。 基于应用本身的方式虽然可以做到 RTO 为 0,但是对应用要求极高,并且需要极其复 杂的机制处理双中心的数据同步问题;目前浙江系统众多,应用复杂,如果采用这种方案, 需要对所有应用进行更改,实施难度极大,顾不予推荐。基于基于文件/数据库日志的方式, 只能以文件方式传输数据,数据丢失单位至少一个文件,无法做到 RTO=0,在不允许丢失 数据的关键应用上也不适合,顾不予推荐。基于复制磁盘容灾主要有同步和异步 2 种方式, 异步方式无法做到 RTO=0,在不允许丢失数据的关键应用上也不适合,顾不予推荐;同步 方式的情况下,以复制主题不同进行分类。基于主机复制磁盘数据:磁盘阵列可以异构是最 大的优点;但是,这种方式容灾时对主机性能有一定影响,针对不同的主机需要采用不同的 实现方式,目前浙江系统众多,应用复杂,如果采用这种方案,需要对所有主机进行论证和
183
实施,实施难度较大,顾不予推荐 基于磁盘阵列复制磁盘数据:实施简单是最大的优点,不影响主机,只镜像数据,是目 前较主流的一种容灾方案;但是,这种方式容灾时,需要磁盘阵列高度同构,不但要求磁盘 阵列是一个厂商的,还必须是同一厂商同一系列的阵列,否则无法实现数据复制,所以,这 种方案多用于已经进行存储整合的大型系统;目前浙江的现实情况是系统非常多,不同系统 采用不同磁盘阵列,很多目前的系统还不支持磁盘阵列的远程镜像功能;如果实施这种方案, 首先需要升级/替换很多磁盘阵列,然后为每一种阵列在海量存储系统配置相应的同构磁盘 阵列,投资巨大,每一种不同的阵列采用不同的软件,维护不便,而且,中心的各个存储各 自工作,没有一个统一存储池能够灵活调配资源,资源使用也狠浪费 基于智能 SAN 虚拟存储设备复制磁盘数据:这种方式拥有所有基于磁盘阵列复制磁盘 数据的优点,而且通过这种方式可以解决许多基于磁盘阵列无法解决的问题: z
磁盘阵列可以完全异构,不同厂商不同系列的阵列可以混合使用,大大节约客户 方案复杂程度和实施难度
z
智能 SAN 虚拟存储设备实现远程容灾不在乎客户现有的 SAN 阵列是否支持远程 数据容灾,大大保护客户投资
z
智能 SAN 虚拟存储设备可以将中心的多个存储设备(如果有多个的话)作为一个 统一的存储池进行管理,存储效率大大提高
z
智能 SAN 虚拟存储设备针对不同的主机存储设备采用统一的软件实施远程容灾, 管理维护大大简化
所以,在目前情况下,基于智能 SAN 虚拟存储设备进行磁盘复制的方式是最适合目前 项目需要的,也是存储工程师主要推荐的方案。
184
13.2 采用 SAN 进行远程容灾的实现 目前,基于智能 SAN 虚拟存储设备进行磁盘复制一个成熟的方案就是 IBM 的 SVC(SAN Volume Controller,SAN 卷控制器)。采用 IBM SVC 实现远程容灾的方案简图如下:
图 13-1 SVC 远程容灾 在所有需要容灾的系统 SAN 网络种加入 SVC,然后就可以利用 SVC 的远程复制功能 进行数据容灾了。 SVC 的绰号称谓是 IBM 虚拟存储魔法石- SAN Volume Controller 存储技术从直接连接的磁盘阵列发展到集中式的 SAN(存储区域网络),在连接性和性 能上带来了巨大的优势。然而,对 SAN 用户的研究显示,虽然存储区域网络具有这些优点, 但是 SAN 中磁盘利用率只有 50%左右,不同类型和品牌的存储的统一调配和管理非常复杂。 IBM 最新推出的 IBM TotalStorage SAN Volume Controller (又名 IBM 存储魔法石)就是为解 决此类问题的开创了新的方式。 SAN Volume Controller(缩写为 SAN VC),SAN 控制器,是存储业界又一次崭新的突 破,就像存储历史上的 RAID,主机系统的存储管理体系和虚拟磁带技术,这些重要的发明 均源自 IBM。SAN Volume Controller 是整个 SAN 网络的控制器,它将整个 SAN 中的各种 存储设备整合成一个巨大的存储池,充分利用存储资源和按需分配存储空间、性能和功能。 而传统的 SAN 网络中,每种存储系统都自成一体,就像一个个独立的孤岛,无法构成一片 统一的大陆。
185
SAN VC 实现了虚拟存储层(Virtualization Layer)的功能,将存储智能加入到 SAN 的 网络中。现在用户可以按照应用不断变化的需求来分配存储,而不再受制于存储子系统设备 在功能和性能上的限制。SAN VC 又是一个 SAN 网络的中心管理控制点,而且它对服务器 的操作系统和存储子系统透明。 这个 SAN 的中心控制器具备更为灵活的磁盘管理功能,极大的提高了存储管理的效率, 例如可动态创建和扩展逻辑卷等。而且,SAN VC 为各种不同的存储设备提供了一个统一的 数据复制平台,例如瞬间复制-FlashCopy 和远程复制-Remote Mirroring。这些复制功能都允
图 13-2 存储虚拟化 许源磁盘卷和目标磁盘卷可以存在于不同品牌的磁盘阵列上。 透明的数据迁移是 SAN VC 的基本功能,当 SAN VC 被加入到一个现有的 SAN 环境中 时,不需要做数据迁移,SAN VC 把现有的磁盘配置原封不动的继承下来(这是 SAN VC 的 Image mode),这样对服务器上的应用是完全透明的。当 SAN VC 完全配置好以后,它又 可以将原先磁盘上的卷及数据透明的迁移到其他真正的虚拟卷中。所有的迁移过程对服务器 透明,因此不需要中止应用。 IBM SAN VC 是一个软硬件集成化的产品,专业的虚拟存储软件运行在集群式的硬件引
186
擎上。它使用了定制的 IBM eServer xSeries 服务器,运行的存储操作系统是基于 Linux kernek 的。与 SAN 网络接口是工业标准的 HBA 卡。由于 SAN VC 是为一个完全开放的存 储环境设计的,兼容各种不同的存储设备。用户可以将各种存储方案融合其中,而不用担心
图 13-3 SAN VC 系统结构示意图 SAN VC 会有什么封闭性。SAN Volume Controller 天生具备灵活的扩展能力,可以使用户 在存储性能和存储容量方面平滑无缝的升级。例如,扩展控制器个数可以增加性能,而往存 储池中增加磁盘则可以增加容量,这两方面的扩张都可以在线完成,不需要中止应用。SAN VC 的主控台提供了自动向 IBM 服务中心报警(call home)和远程支持的能力。 SAN.VC 是一个虚拟存储的解决方案,提供了如下功能: z
为高性能和高效管理而设计的 SAN 嵌入式(In-band)虚拟存储
z
一个集中化的磁盘存储池 l 可包含不同种类和品牌的磁盘系统
z
为卷管理和数据复制提供的统一平台
z
瞬间复制-Flashcopy 在 SAN 一级实现,可跨不同的磁盘系统
z
远程复制-Remote Mirror 可在不同的磁盘系统上
z
透明的、不影响应用运行的数据迁移
z
灵活开放的体系结构:
z
易于实施
187
z
易于在性能和容量双向发展
z
远程报警和诊断 t
z
企业级的高可靠性和稳定性
z
支持 r NT, Linux, 和各种主流 UNIX operating systems,支持各种存储
z
流量负载均衡和切换
z
投资保护
z
IBM 服务和支持
第四部分 存储产业的组织和推动力 第十四章
国际存储技术组织简介
14.1 SNIA 全球网络存储工业协会 ( 英文名称 Storage Networking Industry Association 英文缩写 SNIA )协会于 1997 年在美国成立,由 400 多家致力于"发展网络存储,确保网络存储成为 IT 领域完整的、可信赖的解决方案而服务" 的企业所组成, 是一个基于技术标准确立的中立 性组织。SNIA 积极推动行业标准的制定,推广各种网络存储技术和解决方案的互操作性和 培训事务。 目前,在全球范围 SNIA 已经拥有五家分支机构:欧洲、加拿大、日本、中国、 南亚 (包括印度和新加坡) 以及 澳洲 & 新西兰。 其中, SNIA-CHINA 是其全球范围内的第三家地域性分支机构。 SNIA 作为制订存储业内工业标准的一个官方机构,同时提供业内专业人员的认证与培 训,为存储产业提供标准化的人才。 “标准”历来是 IT 产业发展竞争的中心。谁掌握了标准,谁就掌握了未来。在存储领域, 标准之争较其他领域有过之而无不及。SNIA 网络存储认证体系 (Storage Networking Certified Program 简称 SNCP)是业界第一个独立于厂商的网络存储认证课程。SNCP 是为 了满足企业客户的需求而开发而成,提供了网络存储领域中用与衡量 IT 人员专业技能的标
188
准。 SNIA 网络存储认证体系 (Storage Networking Certification Program 简称 SNCP)是业界 第一个独立于厂商的网络存储认证课程。SNCP 是为了满足企业客户的需求而开发而成,提 供了网络存储领域中用与衡量 IT 人员专业技能的标准。 经过优化的 SNCP 计划既反映了过去几年来网络存储技术的发展,同时也涵盖了未来存 储技术发展趋势。通过对 SNCP 的进一步拓展,SNIA 建立了一套衡量技术人员的理论知识 与技术实践能力的统一标准。 最新课程 - FC-SAN 存储管理 (beta S11-200)(pdf) * 认证系统 经过改版的 SNCP 认证系统,现包括四个领域:概念、标准、解决方案、产品。 ·SNCP 专家认证 (SNIA Certified Professional 简称 SCP):概念领域的认证 ·SNCP 系统工程师认证 (SNIA Certified Systems Engineer 简称 SCSE):标准领域的认 证 ·SNCP 架构师认证 (SNIA Certified Architect 简称 SCA):解决方案领域的认证 ·SNCP 网络存储专家 (SNIA Certified Storage Networking Expert 简称 SCSN-E):解决方 案领域的认证 SNIA-CHINA 协会宗旨 SNIA-CHINA 将沿袭 SNIA 的以往发展宗旨"发展网络存储、确保网络存储技术成为 IT 领域完整的、可信赖的解决方案", 促进网络存储技术在大中华地区的发展,为网络存储的 应用和发展推波助澜。 协会任务 ·推动大中华地区网络存储业的发展 ·积极推动网络存储标准化在大中华区的进程 ·创建和发展用以发布 SNIA 信息和中国网络存储行业信息的本地渠道
189
·将现有的技术中心发展为大中华地区的网络存储教育、培训和认证基地 ·组织国内外存储技术培训、考察和交流活动 ·引进、出版网络存储技术及应用的有关资料文献 协会服务 ·在大中华区推广 SNIA 全球网络存储培训与认证体系 ·根据中国市场与行业用户的不同需求,加强与各行业协会间的交流;积极推进相应存 储技术的发展 ·致力于网络存储技术与文献资料的引进工作 ·通过专题研讨会议、技术高峰论坛、解决方案的演示等形式为会员单位与行业用户间 构筑信息交流 平台 ·提供一个中立、客观的多厂商技术整合方案的权威测试环境
图 14-1 SNIA-CHINA 组织结构图
14.2 互联网工程任务组(IETF) IETF 史创于 1986 年,其主要任务是负责互联网相关技术规范的研发和制定。目前,IETF 已成为全球互联网界最具权威的大型技术研究组织。 IETF 体系结构分为三类,一个是互联网架构委员会(IAB),第二个是互联网工程指导 委员会(IESG),第三个是在八个领域里面的工作组(Working Group)。标准制定工作具体 由工作组承担,工作组分成八个领域,分别是 Internet 路由、传输、应用领域等等。IAB 成
190
员由 IETF 参会人员选出,主要是监管各个工作组的工作状况,它必须非常认真的考虑 Internet 是什么,它正在发生什么变化以及我们需要它做些什么等问题。互联网工程指导委 员会(IESG)主要的职责是接收各个工作组的报告,对他们的工作进行审查,然后对他们 提出的各种各样的标准、各种各样的建议提出指导性的意见,甚至从工作的方向上、质量上 和程序上给予一定的指导。 IETF 基本上不太涉及应用领域,但仍设立了一个应用领域。另外凡是没有归到以上那 些领域的研究课题,都把它归至此类。IETF 实际上有上百个工作组,这里是真正完成工作 的地方。IETF 的交流工作主要是在各个工作组所设立的邮件组中进行,这也是 IETF 的主要 工作方式。 IETF 产生两种文件,一个叫做 Internet Draft,即"互联网草案",第二个是叫 RFC,它的 名字来源是历史原因的,原来是叫意见征求书,现在它的名字实际上和它的内容并不一致。 Internet Draft 任何人都可以提交,没有任何特殊限制,而且其他的成员也可以对它采取 一个无所谓的态度,而 IETF 的一些很多重要的文件都是从这个 Draft 开始。需要说明的是, 仅仅为成为 Internet Draft 毫无意义。Internet Draft 实际上有几个用途,有一些提交上来变成 RFC,有些提出来讨论,有一些拿出来就想发表一些文章。 RFC 更为正式,而且它历史上都是存档的,它的存在一般来讲,被批准出台以后,它 的内容不做改变。RFC 也有好多种,第一个就是它是一种标准,第二个它是一种试验性的, RFC 无非是说人们在一起想做这样一件事情,尝试一下,还一个就是文献历史性的,这个 是记录了人们曾经做过一件事情是错误的,或者是不工作的。再有一种就是叫做介绍性信息。 IETF 的自身定位是一个互联网技术研发的跨国民间组织。虽然已有很多互联网技术规 范通过在 IETF 讨论成为了公认标准,但它仍有别于像国际电联(ITU-International Telecommunication Union)这样的传统意义上的标准制定组织。IETF 的参与者都是志愿人员, 他们大多是通过 IETF 每年召开的三次会议来完成该组织的如下使命: * 鉴定互联网的运行和技术问题,并提出解决方案; * 详细说明互联网协议的发展或用途,解决相应问题; * 向 IESG 提出针对互联网协议标准及用途的建议;
191
* 促进互联网研究任务组(IRTF)的技术研究成果向互联网社群推广; * 为包括互联网用户、研究人员、行销商、承包人及管理者等提供信息交流的论坛。 IETF 与网络存储有关的包括但不限于如下内容: 1.
光纤通道基本架构
FC-4 Upper Layer Protocol:SCSI,HIPPI,SBCCS,802.2,ATM,VI,IP FC-3 common service FC-2 Framing Protocol /Flow Control FC-1 Encode/Decode FC-0 Media:Optical or copper,100MB/sec to 1.062GB/sec 描述: FC-0:物理层,定制了不同介质,传输距离,信号机制标准,也定义了光纤和铜线接口 以及电缆指标 FC-1:定义编码和解码的标准 FC-2:定义了帧、流控制、和服务质量等 FC-3:定义了常用服务,如数据加密和压缩 FC-4:协议映射层,定义了光纤通道和上层应用之间的接口,上层应用比如:串行 SCSI 协议,HBA 的驱动提供了 FC-4 的接口函数,FC-4 支持多协议, 如:FCP-SCSI,FC-IP,FC-VI。 2.
FCP-SCSI
FCP-SCSI:是将光纤通道设备映射为一个操作系统可访问的逻辑驱动器的一个串行协 议,这个协议使得以前基于 SCSI 的应用不做任何修改即可使用光纤通道。FC-SCSI 是存 储系统和服务器之间最主要的通信手段。SCSI 扩展了 COPY 命令,一个新的 ANSI T10 标 准,也支持 SAN 上存储系统之间通过数据迁移应用来直接移动数据。 FCP-SCSI 和总线联结方式相比的优点在存储局域网上已经得到证明,FCP-SCSI 提 供更高的性能(100M/sec),更远的连接距离(每连接最远达 10 公里),更大的寻址空间(最大
192
16000000 个节点)。FCP-SCSI 使用帧传输取代块传输。帧传输以大数据流传输方式传输 短的小的事务数据,这样可提高服务质量。FCP-SCSI 支持为了简化管理和资源存储的存 储“池”技术的网络配置。FCP-SCSI 支持提高可靠性和可用性的编码技术。 3.
FC-IP
FC-IP 将光纤通道地址映射到 IP 地址,FC-IP 的寻址方式:广播一个 IP 地址,然后从 存储节点返回一个 MAC 地址。如果 SCSI 设备不能区分 FCP-SCSI 帧和 FC-IP 帧,IP 广 播可能导致错误。HDS 系统可通过检测帧头来区分 FCP-SCSI 帧和 FC-IP 帧,没有这个 能力的存储系统必须通过别的方法(如 switch zoning)来阻止 FC-IP 帧被广播到 fibre 端口。 FC-IP 和以太网比有几个优点:可以和类似 FCP-SCSI 存储的内部连接架构集成,以节 省使用成本;传输速度更快,效率更高。 以太网传输数据包最高到 1500 字节。包是以太网中基本校正单元,在每一帧后都会导 致消耗 CPU 周期的一个中断。在 GB 以太网里负载通常也是一个限制因素,避免占用全 部带宽。而 FC-IP 数据帧达到 2000 字节,FC-IP 校正基本单元是一个多帧队列。MTU 可 以达到 64 个帧,比较以太网而言允许光纤通道在主机中断之间传输更多的数据。这种 MTU 可减少需要的 CPU 周期和提高传输效率。 FC-IP 还有使用光纤通道网络的优点,光纤通道网络是基于流控制的封闭网络。以太 网设初是考虑到要通过无流控制的公网,它在阻塞发生时,在一贯时间段之后返回并重发包, 消耗额外的 CPU 周期。IP 应用无须修改即可运行于 FC-IP,享受光纤通道带来的高速和 大大减少处理中断。 Emulex 和 JNI 是提供 FC-IP 驱动的光纤通道 HBA 厂商。他们计划传递一个“Combo” 以支持 FCP-SCSI 和 FC-IP。Troika 提供支持 FCP-SCSI、FC-IP、FC-IP(QOS)的控制器, QOS 允许网络管理员分配协议优先权。 4.
FC-VI
FC-VI 是在光纤通道上实现 VI 架构,它允许数据在光纤通道接点的内存地址之间快速 迁移。FC-VI 是 VI 架构的光纤通道应用,一个 intel,Compaq,100 多家厂商和组织为了减 少服务器通信等待的协议标准。VI 设计的初衷是为了达到集群计算机之间通信等待减少和 高带宽的效果。在光纤通道网络里,通过和另一节点接口的 HBA 的缓冲区和应用内存之间 直接访问(DMA)的方法,这个目标完成了 VI 架构建立了内存注册机制,实质上就是限制用 户内存的内存地址并支持数据从用户内存直接传输到 HBA 的缓存,然后这个数据可以通过 外部介质传输到另一个服务器应用内存的指定位置(注册)。如果要使用 VI,应用、数据库或 操作系统必须从 www.viarch.org 获得相应的 API。DB2 6.1 和 Oracle8.1 都在他们的数据 库集群应用中使用了 VI 架构。
193
IP over Ethernet 的延迟包括 TCP 栈(CPU 负荷)和以太传输延迟。100BaseT 的最大 传输速率为 100Mbit/sec,FC-IP 减少了以太相关的延迟并以光纤通道的速度传输,提供比 IP over Ethernet 更好的吞吐能力,但仍然避免不了 TCP/IP 的软件延迟。FC-VI 去掉了 TCP 栈并提供了应用内存和 HBA 之间的 DMA。FC-VI 饶过了系统内核,避免了操作系统 上下文转换和缓冲改变,实现了更高的传输速率。 FC-VI 需要一个支持 VI 架构的光纤通道 HBA,FC-VI HBA 和支持 SCSI I/O 的光纤 通道 HBA 有本质上的不同。Troika 和 Finisar 都提供支持 VI 架构的光纤通道 HBA。Finisar 出售一种基于 PCI 的支持 VI 架构的光纤通道 HBA,支持点对点连接或交换形式。Troika 出 售一种基于 PCI 的智能控制器?D?DSAN 2000 系列控制器,这种控制器支持 FC-SCSI, FC-IP,点对点 FC-VI,FC-AL 和交换拓扑。Troika 控制器提供多种管理选项和特征,比 如协议优先权配置和在负载均衡的 path 变换。 人们正在努力提出访问存储的 IP 标准,Cisco 为 SCSI over IP 向 IETF 提交了一个 规范,目前这个规范仍在开发中,它需要将控制和命令信号与数据信号的传输电缆分开,主 要是考虑流控制和传输控制的开销。
第十五章
现有设备厂商简介
15.1 HDS 公司的 HDS 9900V 15.1.1 HDS 9900V 产品综述 HDS 公司于 2002 年 5 月 7 日发布了基于 HDS 9900 和第二代 HI-STAR 全光纤交换结构以及 64 位高 速处理器的企业级高端智能存储系统 HDS 9900V 系 列产品。在 HDS 9900V 系列中包括两个型号的产品: HDS 9980V 和 HDS 9970V,其中 9980V 最大管理 1024 块盘包和 9970V 最大管理 128 块盘包,HDS 9980V 由 1 个磁盘控制器柜和外接 1 至 4 个磁盘阵列柜组成。
图 15-1
HDS 9900 外形
9900V 产品在以下几个方面进行了增强:
194
HDS 9970V 产品 z
系统支持 4 块到 128 块盘包
z
36GB 1.5 万转/每分钟 ( 系统最大裸容量 4.6 TB )
z
73GB 1 万转/每分钟、1.5 万转/每分钟( 系统最大裸容量 9.2 TB )
z
146GB 1 万转/每分钟 ( 系统最大裸容量 18 TB )
z
系统缓存 64GB NV-CACHE
z
系统最大支持 48 个 Fibre Channel(开放系统),24 条 FICON 或 24 条 ESCON 通 道(IBM Main Frame)。
z
系统内部全光纤通道和 HI-STAR Ⅱ型,带宽为 7.9 GB/S
HDS 9980V 产品 z
系统支持 8 块到 1024 块盘包
z
36GB 1.5 万转/每分钟 ( 系统最大裸容量 36.8TB )
z
72GB 1 万转/每分钟、1.5 万转/每分钟( 系统最大裸容量 73.7TB )
z
146GB 1 万转/每分钟 ( 系统最大裸容量 147.5TB )
z
系统缓存 128GB NV-CACHE
z
系统最大支持 64 个 Fibre Channel(开放系统),32 条 FICON 或 32 条 ESCON 通 道(IBM Main Frame)。
z
系统内部全光纤通道和 HI-STAR Ⅱ型,带宽为 15.9 GB/S
lightening 9900V 和 9900 硬件技术指标检索对照表见表 15-1: 表 15-1
HDS 9900 系列参数
条目
9980V
9970V
内部结构采用类型
Hi-StartⅡ 全光纤交换
Hi-StartⅡ 全光纤交换
前端主机接口板 CPU,个数
32 颗 64 位 RISC, 16 颗 64 位 RISC, 200Mhz 200Mhz
195
后端磁盘控制器 CPU,个数
32 颗 64 位 RISC, 16 颗 64 位 RISC, 166Mhz 166Mhz
系统内部缓存总带宽
15.9 GB/s
7.9 GB/s
数据链路带宽
10.6 GB/s
5.3 GB/s
控制链路带宽
5.3GB/s
2.6GB/s
数据链路带宽(8bit)
每条光纤 332MB/S
每 条 光 纤 332MB/S
控制链路带宽(8bit)
每条光纤 83MB/S
每 条 光 纤 83MB/S
数据链路数量
32 条
16 条
控制链路数量
64 条
32 条
支持的并发 I/O 数 / 通向 缓存通道数
96 / 96
48 / 48
系统单故障点
没有
没有
开放系统主机最大端口数
64
48
最 大 ESCON 主 机 端 口 数 (OS390)
32
24
最 大 FICON 主 机 端 口 数 (OS390)
32
24
开放系统接主机端口标准
1Gb/2Gb 自适应
1Gb/2Gb 自适 应
开放系统最大可连接异构 主机数量
8192
6144
最大后端磁盘控制器
4对
2对
后端磁盘通道环路
32 条
16 条
系统最大裸容量(73GB 磁 盘,实际 72GB)
75 TB
9.2 TB
系 统 最 大 裸 容 量 ( 146GB 磁盘,实际 144GB)
147.5TB
18 TB
系统最大盘包数
1024 块
128 块
盘包可靠性
250 万小时
250 万小时
系统最大数据缓存
128GB
64GB
系统最大指令缓存
6GB
3GB
镜像写缓存
是
是
支持 RAID 5 方式
3D+1P 和 7D+1P
3D+1P 7D+1P
和
支持 RAID 0+1 方式
2D+2D 和 4D+4D
2D+2D 4D+4D
和
196
15.1.2 z
HDS 9900V 硬件技术介绍 系统内部更高的带宽
HDS 9900V 系列产品的内部架构采用全光纤通道技术和最新的立体交换架构,即第二 代 HI-STAR 体系结构。第二代 HI-STAR 体系结构与第一代(HDS 9900 系列产品采用,包 括:HDS 9960、HDS 9910)相比,在系统的整体性能上具有极大的提高,特别是通过 64 位的高频 CPU 处理器和多光纤通道, 使 HDS 9970V 产品的带宽可达到 7.9GB/S,HDS 9980V 产品的带宽可达到 15.9GB/S。新一代 HI-STAR 体系结构的带宽几乎为上一代产品的 3 倍, 是传统第二代产品的 8 倍。 表 15-2
z
HDS 9900 产品带宽
型号
控制带宽
数据带宽
Cache 总带宽
9980V
5.3GB/s
10.6GB/s
15.9GB/s
9970V
2.6GB/s
5.3GB/s
7.9GB/s
系统内部更强的处理器和扩展性
HDS 9900V 系列产品中的前端与主机的连接通道控制器以及后端与磁盘阵列连接的控 制器中的处理器也进行了升级更新。新的处理器采用 64 位的高频 MIPS 处理器,取代了过 去的 32 位低频处理器。其中前端与主机连接的处理器为 200MHZ 主频,后端接磁盘阵列的处 理器为 160MHZ 主频,它的处理能力为 HDS 9900 系列产品中处理器能力两倍以上 (HDS 9900 系列产品所使用的处理器为 32 位的 80MHZ 主频的 i960 处理器)。 由于处理器能力的提高,HDS 9900V 系统内部的每条光纤通道的带宽由 200MB/S 提高 到 332MB/S。并且连接主机通道数量与内部接磁盘阵列通道数量可随应用规模和 I/O 支持能 力的变化及要求,可不停机在线扩充,示意图如图 15-3: z
系统超大容量
HDS 9900V 系列产品的最大容量也提高了很大。目前,HDS 9900V 产品支持 36GB(转 速 15000/分)、72 GB(转速 10000/分,15000/分)、144GB(转速 10000/分)的磁盘。HDS 9980V 产品可装载到 1024 块物理盘,是目前全球最大的磁盘存储系统。HDS 9970V 产品可装载到
197
128 块物理盘。这样, HDS 9980V 产品的最大容量为 147TB,HDS 9970V 产品的最大容量
图 15-2 HDS9900 系统示意图(1)
图 15-3 HDS9900 系统示意图(2) HDS 9900V 前端 64 位高频处理器示意图 为 18TB,并且所有系统可在不停机情况下进行 4 块或 8 块为一组的基本容量单元扩充。
更灵活的 RAID 5 和 RAID 0+1 保护方式技术。
HDS 9900V 系列产品对 RAID 保护技术也进行的增强与灵活选择。在 RAID 0+1 保护方 式下,一个 RAID 组可以由 4 块或 8 块物理盘组成 2D+2D 或 4D+4D,这样可以达到更高的
198
性能。同时 HDS 9900V 还提供由 4 块或 8 块组成的物理盘支持 RAID 5 保护方式下的 3D+1P
图 15-4 HDS 9980V 前后端通道扩展能力示意图 和 7D+1P,其中 7D+1P 的 RAID 5 方式可以极大的提高磁盘组的利用率(88%),节约了盘
图 15-5 HDS 9900 系统 RAID 缓存设计 组投资并可同时提高大文件处理方式的性能。 z
缓存最大和最安全设计的存储系统
199
图 15-6 HDS 9900 系统电源保护 HDS 9900V 仍在数据缓存采用多块设计并支持数据在缓存区的镜像写处理方式,保证 了 HDS 9900V 相对其他存储设备在缓存一级无单故障点设计(见图)。其他产品因采用单块 缓存处理技术并存在单故障点设计隐患,这样数据在缓存延时处理期间会因缓存板故障而丢 失数据。 9900V 采用 4GB 缓存板作为扩充单元进行在线扩容,9980V 最大扩充至 128GB,9970V 最大扩充至 64GB。 z
逻辑虚拟端口功能可以支持更广泛和更灵活的 SAN 连接性
HDS 9900V 系列产品通过新增加的微码功能率先实现逻辑虚拟端口软件定义功能 (HSD),可支持系统连接主机更广泛更灵活的 SAN 连接性,即在原有的多物理通道支持多 操作系统主机平台连接的基础上,通过在单个物理端口上定义多个虚拟端口(最大为 128 个)来支持在同一个物理通道上的不同操作系统多主机平台的连接,该功能为用户在多操作 系统环境下的连接配置系统端口节省了投资,不需要为每个操作系统在存储系统上都配置相 应通道接口(连接示意图如图 15-7) 。 z
独特与高可靠性的盘包设计
HDS 9900V 采用 HDS 自行设计的 3 英寸直径和 1 英寸高全光纤双口读写高速盘包,其 它同类产品仍使用 SCSI 与单口读写盘包。同时 HDS 9900V 所用盘包平均无故障间隔指标 为 250 万小时。 z
HDS 9900V 部件冗余设计
200
9900V 整机部件没有单一故障点,所有部件均为 N+1 冗余备份设计,即双独立供电接 口与内部 N+1 电源模块,冗余散热风扇,双 SVP 服务处理器设计,RAID 技术保护方式, 动态热备份盘包,双独立 Cache 板设计,在两组独立 Cache 内镜像写数据,7 x 24 x 365 天 不停机运行标准。
图 15-7 HDS 9900 系统主机连接方式 z
HDS 9900V 不停机维修、升级与扩容设计
9900V 的所有部件均可热插拔和不停机进行更换、扩容和不停机地微码升级。当微码出 现问题时可以自动不停机地返回旧版本并可不停机地加入微码的 Patch。 z
HDS 9900V 自动故障预警监测与回叫系统设计
9900V 控制器柜内设有故障信息与指示灯显示报警系统及 SVP 笔记本电脑显示服务与 报警系统,并通过系统配置的 Resource Manager 当中的 Graph Track 智能菜单式窗口软件显 示 9900V 内部各个部件运行状态及故障发生时部件所处位置便于查找故障与维修。
图 15-8 HDS9900 系统故障诊断 另外在 9900V 中配有 Hi-Track 自动故障预警监测与回叫系统, 定时运行监测所有部件, 当部件即将发生故障时,其征兆信息通过 Hi-Track 与配置的电话线和 Modem 自动拨号传
201
至实施方 Hi-Track 监测中心。实施方技术人员根据信息可及早通知用户更换部件,避免故 障发生。
15.1.3 HDS Lightening 9900V 软件分析 z
Hicommand 异构存储管理框架平台
作为一家专业的存储系统生产及服务厂商,HDS 对客户在存储系统方面的需求有深深 的理解。存储工程师知道客户在进行庞大的数据管理时的痛苦,那就是如何有效的管理不断 增长的大量数据,如何的保护这些重要的数据,如何将这些数据成功的转化为知识为企业所 用,如何降低管理的成本。所有的这些需求,就是 HDS 开发的 Hicommand 管理框架的动力。 它的目标就是简化存储系统的管理、保护存储系统的数据资源、优化存储系统数据资源的使 用。
图 15-9 HDS9900 软件结构 Hicommand 管理框架是一个开放的、可扩展的、模块化的管理架构。它通过采用工业 标准的公用信息模型(CIM)和简单对象访问协议(SOAP),可以很容易的集成 HDS 公司 的软件产品以及独立软件厂商的产品。通过它,可以将最好品牌的产品进行完美的集成,使 客户得到最好的系统解决方案和信息基础架构,并支持将来的扩展。HDS 公司知道,没有 任何一家公司能够为客户在任何方面都提供最好的产品,存储工程师的优势在存储系统,存 储工程师专注于存储系统,如果客户选择磁带库备份系统时,有些公司在该领域实力很强,
202
客户有权利选择这些优秀的产品。只要各家厂商都遵守工业的标准,那么对其产品的管理都 可以集成到这个框架上来。通过 Hicommand 管理框架,为用户可以带来下列的好处: z
降低用户的总拥有成本(TCO)
z
简化存储系统的管理
z
无缝的集成业界最好品牌的软件及硬件产品
目前,在 Hicommand 管理框架下,HDS 公司提供了 Hicommand 设备管理软件以及 Hicommand 性能管理软件。 z
HiCommand 设备管理软件(Hicommand Device Manager)
HiCommand 设备管理软件为企业提供了一个统一的管理平台,可以实现集中式的管理 多个异构的存储系统。它可以从主机、应用和存储系统等方面对存储资源进行管理,可以提 高存储系统管理员的工作效率,联机的动态的对存储资源进行管理。目前,通过 Hicommand 设备管理软件,可以在统一的管理界面下集中管理 HDS 的存储系统以及 SUN 的存储系统。
图 15-10 设备管理软件 Hicommand 设备管理软件的结构和主要功能 Hicommand 设备管理软件由三个部件组成:设备管理软件服务端,基于 Web 的图形化 的客户端以及运行在主机上的代理。 主要功能: z
从逻辑、物理以及主机的角度对存储系统进行管理
z
可以同时管理多台存储系统,这些系统可以是不同型号、不同厂商的存储系统
z
支持 HDS Shadowimage 和 Truecopy 软件
z
使用中央控制台来发现、管理和监控多台存储系统
203
z
易于使用的用户接口
z
通过 Internet 或 WAN 采用基于 Java 的图形化方式进行远程管理
z
严密的安全保护机制
z
同时支持自动化的脚本编程
z
可以与其它厂商的硬件及软件集成
z
采用预警机制对存储系统进行维护管理
使用这种软件,可以为客户带来的好处如下: 面向业务运营的管理方式,企业可以从其商业运营的层面来规划和管理存储资源;用户 可以实时的掌握其存储资源的使用率,以便尽早规划,满足业务运营的要求,便于管理。用 户得以采用统一的管理界面对不同的存储系统进行管理,实现自动化的配置及管理复杂的存 储资源,满足服务标准的承诺,减低管理的风险。另外,客户还可以得到如下收获:
采用预警式的故障诊断机制,使故障清除在萌芽之中。
将复杂的手工管理过程自动化,极大的降低出错的概率
投资最大化利用
实时的对存储资源进行管理,充分有效的利用存储资源
集中的控制台对所有的存储系统进行管理
统一的管理界面管理所有不同的存储系统
Hicommand 性能管理软件(Hicommand Tuning Manager) Hicommand 性能管理软件可以对其管理的存储系统的性能进行智能的预警式的监控、 报告及预测存储资源的需求能力,可以与业务应用系统进行集成(如 Oracle 系统)。 这种 软件帮助客户实施集中管理他们的存储系统环境。 Hicommand 性能管理软件报告存储系统的性能和容量,从多个方面观察存储系统的状 况。它可以从存储系统,从服务器以及应用程序各个方面来看存储的表现。同时,它还提供 高级的预测功能,对存储系统的需求进行预测。实现:
同设备管理软件一样,也是采用易用的图形化界面;
204
从应用系统、服务器以及存储的角度报告存储系统的资源状况;
监控存储系统的性能及能力;
分析和预测未来的需求;
自动的生成各种报告。
Resource Manager-系统资源管理、性能监视套件 Resource Manager 是 HDS 公司设计的存储系统资源管理的软件包,实现对存储系统的 配置、定义、性能监视、状态报告等管理功能。帮助用户简化存储系统设置管理操作流程, 直观表现存储系统工作状况和配置状况,提供用户实时监控、历史数据分析报告和变化发展 的趋势预估报告,帮助用户优化存储系统性能,合理分配和利用存储系统资源,提高系统管 理的生产效率,释放管理员的生产力,帮助客户规范的、安全的实施和管理生产流程和管理 流程,为用户的容量评估、容量扩展、资源使用提供了详细的数据积累和报告,使客户的投 资回报率最大化。整个系统软件包由 Remote Console、LUN Manager、LUN Expansion、Flash Access、SANtinel、Graph Track 软件组合构成。
主要功能:
提供用户友好的图形用户界面(GUI)和 WEB 浏览器的管理方式,从本地(存储系统 上)或远程(企业内部网络)通过 Windows 工作站以 WEB 方式远程管理 HDS 的企业存储 网络系统。 HSD 功能是业界唯一的多主机共享存储系统物理端口的解决方案,提供异构主机系统 或多个主机共享同一个物理通道端口访问 LUN,提供主机更广泛、灵活的 SAN 连接性,节 约大量的投资。 Flash Access 通过在指定的 Cache 中进行读写 I/O 操作,以接近于主机通道数据传输的 速度,来提高具有特殊要求的数据存取访问的速度,为应用系统提供了高速、安全的特殊虚 拟存储区域和数据读写方式,通过应用系统的合理设计和使用,可以帮助用户提高整体性能 系统。 LUN Manager 对磁盘存储系统进行系统配置和定义,LUN 分配,RAID 定义和管理, Cache 管理和配置,报告磁盘系统的配置信息。
205
监视存储系统工作情况,报告磁盘系统运行状态,提供错误预警和报警。 报告磁盘组性能情况,自动调整存储系统的性能,支持数据库性能表现。 提供直观、醒目的图形和报表方式监视存储系统资源和系统性能,并提供预先设计的格 式化的报告和趋势分析报告。 完成 ShadowImage 系统软件和 TrueCopy 远程备份系统件的控制与定义操作。
图 15-11 软件接口 具有 Zone 分区安全管理。 z
Remote Console-远程控制台软件,包括 Local User Interface 和 Storage Navigator 软件 Local User Interface-本地用户控制接口软件 管理存储系统的门户,基于 Java 的开放管理平台 对存储系统进行简单的本地化操作和管理 可以线性的管理 8 个相同种类的存储系统 简单易用的集中管理所有与存储系统相关的软件,包括商业连续性处理、性能、备份/
恢复等软件,简化用户的操作流程 提供远程访问功能,增强存储系统的控制和管理的可用性和灵活性 Storage Navigator-存储管理导航软件
206
基于 Java 的独立的管理机制和平台,用户使用具有 Java 插件的浏览器,通过安全许可 进行 Lightning 9900V 系列的存储管理,无需客户端软件,远程管理存储系统 通过 Java GUI 直观清晰的定义和控制逻辑卷(Virtual Volume)与物理磁盘的布局 通过 Java RMI 提供虚拟管理服务器功能,内置 WEB Server, 支持远程访问 通过 RAID Java RMI 和主机代理引擎提供逻辑卷的管理 z
LUN Manager-磁盘逻辑单元管理软件
图 15-12 软件模块接口 该模块提供简单易用的物理磁盘矩阵的集中管理功能,可以通过远程控制台灵活、方便 的配置磁盘矩阵组,通过减少调整平衡 I/O 负载的工作时间,提高雇员的生产力;配置 FC 光纤通道的属性,包括 FC-AL 和光纤通道的拓扑,定义 SCSI 端口与 LUN 的映射关系,可 以随时动态增加、删除 SCSI path;给 LUN 分配 SCSI path、LUN #、SCSI ID,Fibre path 等 配置定义,通过减少逻辑设备的竞争访问,提高数据访问的性能,减少主机 I/O 排队时间, 可以将 Open 9s、Open 3s、Open Ks 聚合成 Extended LUN。 另外,它还支持 Open Ks(1.9GB), Open 3s(2.4GB), Open 8s(7.3GB), Open 9s(7.3GB) 的 LUN 模式 z
LUN Expansion(LUSE)-LUN 卷容量扩展软件
对于某些接口访问 LUN 数量有限制的主机操作系统,LUSE 提供了访问大容量存储系
207
统的解决方案。 LUSE 提供在开放系统的主机上使用较少的 LU 数目解决方案,允许将最大 36 倍于标 准 Open-X 容量大小的 LU 绑定为一个逻辑 LUN。
图 15-13 z
HDS 9900 的连接
SANTinNel & HSD(feature)-存储区域网安全管理软件
HSD 功能是业界唯一的多主机共享存储系统物理端口的解决方案,提供异构主机系统 或多个主机共享同一个物理通道端口访问 LUN,提供主机更广泛、灵活的 SAN 连接性,节 约大量的投资 HDS 9900V 系列产品通过新增加的微码功能率先实现逻辑虚拟端口软件定义功能 (HSD),在原有的多物理通道支持多操作系统主机平台连接的基础上,通过在单个物理端 口上定义多个虚拟端口(最大为 128 个)来支持在同一个物理通道上的不同操作系统多主机 平台的连接 在开放系统、多平台或 SAN 环境中通过使用 World Wide Names,控制每台主机仅可以访 问事先定义的 LUN,达到 SAN 结构中 Zone 的安全管理功能和数据保护功能。 支持开放系统和 OS390 系统 在 HSD 功能支持下,允许 WWN 群组访问 LUN 或 LUN 群组功能,每个组最多可以有
208
128 个 WWN 访问一个 LUN 或者 LUN 群组 HSD 最大配置:
z
∗
WWNs per port: 128
∗
LUNs per HSD:
∗
HSDs per port:
128
∗
LUNs per port:
512
∗
HSDs per system:
256
4096 (32 x 128)–
Graph Track-性能监控软件
实时采集存储系统运行信息,通过图形、报告的方式帮助用户监视、分析存储系统性 能和资源使用情况将实时和历史性的监视数据以图形方式显示,并将峰值、趋势等关键信息
图 15-14 Graph Track 图形界面 重点显示 实时监控存储系统的整机、控制单元、部件等的使用情况和性能,包括短期和长期的 Cache 命中比率,读写操作比率,I/O 次数统计 GT 可以在 Array Group 和 LDEV 层面收集和显示详细的 I/O 统计数据 GT 对某些指定的部件提供了可调整的警告级别监视机制,GT 监视 CHIP、ACP、LDEV 等控制单元的活动,当超出用户设定的阈值,GT 将在监控图形中变换颜色警告用户 GT 提供了内部日志功能,详细记录内部 GT 程序的操作,便于客户核实操作、调查问 题、监视 GT 的操作情况 为用户预先设计了格式化的报表,可以对存储系统上的磁盘配置、逻辑卷分布、主机的 连接情况分别作出报表统计等工作
209
z
用户可以自己设置的采样频率,Graph Track 还可以根据用户设定的其他参考值自 动的管理有关性能和资源使用情况的数据
z
可以显示 Subsystem ID、Subsystem 和 LDEV 配置的详细信息,直观展示存储系统 的配置情况。
图 15-15 GT 界面示意图 z
Flash Access-逻辑盘常驻缓存,快速存取软件
Flash Access 通过在指定的 Cache 中进行读写 I/O 操作,以接近于主机通道数据传输 的速度,来提高具有特殊要求的数据存取访问的速度,为应用系统提供了高速、安全的特殊
图 15-16 HDS 9900 缓存结构示意图
210
虚拟存储区域和数据读写方式,通过应用系统的合理设计和使用,可以帮助用户提高整体性 能系统。所有对 Flash Access area 写操作的 I/O,都是双写的操作模式,同时写入 Cache 和 磁盘中,保证数据的完整性和安全性 Flash Access 允许用户将逻辑卷的数据保存在指定的 Cache 区域中(占系统总 CACHE 的容量),可以动态的增加或删除 Flash Access 区域的大小,不用中断正在运行的 Flash Access 设置,而可以动态的扩张容量。在用户人为的删除 Flash Access area 中的数据之前,系统保 证 Cache 中的数据不会丢失,如果删除 Flash Access area,所有写 I/O 都会保存到受影响的 磁盘上,数据不会丢失。每一个 LDEV 可以有最大 1024 个 Flash Access extent。 z
HDLM-通道负载均衡与故障自动切换软件
HDLM(Hitachi Dynamic Link Manager)是 HDS 公司提供的安装在主机端的存储工具 软件。HDLM 提供主机到存储系统的 I/O 通道负载平衡和故障切换功能;增强了主机系统的 数据可得性。虽然存储系统通过 RAID 技术对数据进行了保护,但是单纯的存储系统是不能 够提供整个 I/O 系统的端到端的保护的。主机端到存储系统的整个 I/O 路径中发生了故障如: HBA 失效、FC 交换设备故障、连接电缆断开等会中断主机端对数据的访问;HDS 公司提 供的 HDLM 软件,通过对主机到存储的冗余 I/O 路径的管理实现负载均和故障切换;保证 了 24¯7 业务不间断的运行。 HDLM 是基于服务器端的 GUI 解决方案,能够提供: z
支持 SCSI 和 FC 的连接方式;
z
在 SAN 环境中能够自动的发现主机到存储的路径;
z
支持 I/O 路径的自动故障切换和恢复回切;
z
支持多通道的负载均衡技术;
z
支持命令行/图形界面/API 接口;
z
支持所有的 HDS 存储系统。
可以看出 HDLM 软件具有如下特点: 高可靠性方面:通过服务器的多条通道实现 I/O 通道自动的故障切换和恢复回切提高了 服务器端数据访问的安全性和性能。
211
高性能方面:通过多条 I/O 通道的负载均衡提高了应用系统数据访问的性能,进而有效 改善了应用系统的性能。 对于操作员来讲,易安装性方面:HDLM 能够自动查寻主机端到存储端的路径,这种 查寻无论是直连的 DAS 结构还是复杂的 SAN 结构都可以自动完成。因此 HDLM 安装完成 后不需要复杂的配置就可以使用了。 HDLM 的工作方式
图 15-17 HDML 的工作方式
图 15-18 HDML 通道控制 HDLM 对 I/O 通道进行实时控制,检测每个通道的状态;当有任何一个通道发生故 障时自动将 I/O 切换到其它健康的通道上;同时,HDLM 会自动记录整个操作过程。 HDLM 能够支持所有的 HDS 存储系统,并且在功能上基本相同。对于 Lightning 9900V
212
系列和 Thunder 9570V 系列,在实现负载均衡的时候会有所不同。由于 Thunder 9570V 系列 中的 LUNs 是由两个控制器分别控制的,因此服务器通过不同的通道同时连接两个控制器时 会存在两种类型的通道 — Owner 或 Non-ower 的通道如下图(图 15-18):在 Owner Path 之 间可以实现负载均衡。 ShadowImage-“业务连续性”解决方案 ShadowImage 是 HDS 公司深入研究当今商业社会业务连续性处理流程、7 x 24 x 365 服 务、数据可靠性、数据可用性、数据保护等一系列需求后,全力开发的、业界公认的、技术 领先的数据复制软件。基于存储系统内部运行的数据复制技术,无需主机资源参与,最大程 度的发挥了软件的可用性;瞬间分离得到的多个数据备份拷贝,提供了用户并行处理联机业 务、批量作业、应用开发、测试、数据分析和数据挖掘、快速恢复的解决方案,节约了生产 主机宝贵的资源而处理其他重要的业务,革新了批量作业、磁带备份的新策略,给客户提供 了最佳投资选择-最小的总拥有价值(TOC)和最大化的投资回报。配合 HDS 公司的 TrueCopy 和 Freedom 智能存储系统,为客户提供高度安全的、高度灵活的、高度统一的数 据保护、容灾、数据备份的解决方案。 它的主要功能如下: 第一,它采用了高速的、无需主机处理资源参与的数据复制技术,不依赖于任何的主机 操作系统、文件系统、和数据库系统的限制,以存储系统内部的软件操作,完成基于磁道的 逻辑卷复制。 其次,ShadowImage 使用了本地镜像、数据同步(异步方式)处理机制,在保证不增加 主机 I/O 响应时间的前提下,保护关键联机生产数据的高度安全性、应用系统的可靠性、数 据的完整性,保护用户的商业信誉;运用立即获得连续性业务处理的不同时间段(PIT)的 数据拷贝,确保灾难或故障发生时的最新时间段的数据拷贝备份和数据的一致性,提供客户 灵活、快捷、安全的恢复方法。 第三,通过 ShadowImage,可以在一个系统内立即访问关键业务数据的拷贝,立即共享 对时间比较敏感的相关数据,保证业务处理流程的并行处理,确保企业为客户提供实时的服 务,提高客户对企业的忠诚度,提升企业对客户和市场的的敏捷反映程度。 第四,ShadowImage 革新数据备份策略,提高操作流程的效率,彻底清除连续性业务处
213
理流程中的“备份窗口(Backup-Window)”时间和缓慢的磁带备份时间,满足日益增长的业 务量和数据急剧增长的需要,在日趋激烈的竞争中获取宝贵的空间 第五,ShadowImage 在磁盘拷贝操作中提供快速的恢复技术和数据拷贝的高可用性,完 全提升数据恢复的速度和可靠性,摒弃缓慢的、因磁带质量问题引发故障的磁带恢复机制, 提升了企业对人为事故、灾难的快速恢复能力和应变能力 第六,ShadowImage 通过快速数据拷贝技术和连续的 PIT 数据拷贝技术,可以快速、有 效的准备开发和测试环境,大大缩短新的商业应用程序的开发、测试的时间和周期,为用户 快速推出业务品种提供强有力的保障,缩短业务创新的周期。通过快速数据拷贝技术, ShadowImage 快速的复制真实用户环境,大大简化灾难恢复测试的步骤计划、流程演练、例 行测试,确保容灾计划的可实施性 第七,ShadowImage 提供高可用的、灵活的操作性,客户可以自行配置和操作,无需 HDS 工程师参与;无需预留专用的逻辑盘池,节约磁盘资源,提高了存储系统的利用率。 经过 ShadowImage 复制的所有数据拷贝都是 Raid 保护的,本地镜像机制+磁盘矩阵 Raid 技术给用户提供了双重的数据保护。 第八,ShadowImage 支持开放系统和 OS390 系统。开放系统下 1 个源逻辑卷最多可以 获得 10 个拷贝(包括源卷),OS390 系统总共支持 4 个拷贝(包括源卷)。HDS 9900V 系列 最大支持 4096 pairs(镜像磁盘对)。 z
本地磁盘镜像功能与快速数据恢复
214
ShadowImage 是存储系统内部的数据复制技术,磁盘的镜像功能对于主机系统是不知情 的处理,异步方式数据复制技术在不增加主机 I/O 响应时间的前提下,提供了逻辑卷的实时 (异步方式)数据保护功能,提高了系统的可靠性通过 ShadowImage,可以定义生产数据逻 辑盘与备份逻辑盘的镜像复制关系,实时的(异步方式)保持 2 个逻辑磁盘的数据同步。可 产生一个或多个与生产主机数据库所在的盘卷(P-Vol)完全相同的一个备份镜像卷(S-Vol),
图 15-19
HDS9900 双机热备
图 15-20 HDS 9900 双机热备工作过程 备份镜像卷中的数据和生产数据库中的数据完全相同。
215
ShadowImage 是实时镜像写与盘组 RAID 保护,因此在同一 9900V 系统内可得到 2 份 或多份数据拷贝,并当存放生产数据盘组发生故障不能恢复运行时可通过备份卷的数据(两 边是实时一致的)与切换地址定义恢复应用,相比磁带恢复方法,SI 有无可伦比的快速性、 简便性、可靠性。 z
革新数据备份策略,缩短业务处理流程中的“备份窗口(Backup-Window)”
通过 ShadowImage 可以快速获得多个生产卷的 PIT 数据拷贝,由此革新了业务处理流 程的并行处理的新策略和解决方案,不但保持 7x24 连续服务,并且消除了数据备份窗口, 引发了 LAN-Free, Server-Free 的数据备份的革命,节约了宝贵的 CPU 和内存等资源、网络 资源,大大缩短了应用系统因数据备份等原因的脱机时间。备份卷(S-Vol)是一个可独立 ol 寻址的盘卷,通过分离磁盘镜像对等操作,马上可以获得多个与生产数据完全一样的数据拷
oi nt -In -Ti m e C op y 图 15-21 ShadowImage 的数据备份 贝备份卷,这些卷可以立即在同一系统内使用,或者通过装载等操作被其他的系统使用。 用户应用系统几乎无需“0”秒的下机时间,即可利用其他主机备份通过 ShadowImage 得到的时间段(PIT)的数据拷贝。 由于备份主机系统直接连接存储系统,可以访问 SI 的数据拷贝,因此备份主机与磁带 库构成了 LAN-free 的备份体系,释放了传统备份方法所占用的局域网带宽。 另 , ShadowImage 兼 容 任 何 的 主 机 备 份 软 件 -完 全 的 、 自 动 化 的 兼 容 VERITAS NetBackup version 4.5 软件。 z
PIT(Point in Time)拷贝的并行应用
216
ShadowImage PIT 解决方案为用户提供了业务并行处理的新思路和实际可行的操作流 程,不但可以继续生产系统的运行,还可以同时处理以前无法并行处理的业务,极大的提高 了生产效率和生产力。 其次,它缩短了应用测试过程中环境准备、测试失败后的数据恢复的时间和周期,通过 SI 的瞬间分离技术、本地镜像、多个 PIT 拷贝等功能,上述复杂、麻烦、危险性极高的操 作可以快速、安全的实施。 SI 的 PIT 拷贝解决方案可以帮助缩短应用开发周期,应用环境的准备瞬间可以获得, 提高应用测试、开发的效率,加快产品创新周期,保持市场的竞争力,是系统程序员、数据 库管理员的福音。 ShadowImage PIT 还解决了长期困绕用户的大量数据传输的问题。用户的数据分析和数 据挖掘业务将无需耗费大量的时间进行生产数据、历史数据的传输与迁移,PIT 拷贝的使用
图 15-22 PIT 拷贝过程 可以保障客户快速、实时的分析营业数据,极大的提升了商业价值,是用户最好的投资回报。 ShadowImage 是 HDS 提供的独特系统件,既可以在主机上通过 CCI(Command Control Interface)控制操作,也可以在 HDS 存储系统本地的服务控制台(SVP)操作。它使主机系 统和 9900V 设备管理者能够在后台状态下,为主机处理的数据在 9900V 内部实时创建可独 立寻址的多 copy 卷。这些 copy 卷是应用数据存放的现用生产卷的镜象,可同时并行运行任
217
务。一旦生产数据的 copy 卷建立后,通过命令可以与其生产卷分割开,应用系统数据库可 通过生产卷继续做联机应用,与此同时,备份系统可利用 copy 卷进行备份、报表生成和应 用开发测试等工作。 z
ShadowImage-安全、经济、有效的数据容灾解决方案
图 15-23 ShadowImage 的卷复制 ShadowImage 本地镜像技术提供本地关键数据的实时(异步方式)的镜像备份解决方案, 在保证正常的 I/O 响应时间的前提下,用户可以将关键的生产数据实时保持镜像备份,长时 间的保持数据同步,镜像操作由 HDS 智能存储系统内部完成,对主机操作系统是不知情的 正常的 I/O 操作;一旦生产卷故障,应用系统可以快速的使用相同内容的备份卷恢复生产系 统。配合 HDS 磁盘系统的 Raid 技术,给用户提供了双重的数据保护 ShadowImage 的快速 PIT(Point in Time)拷贝技术,保障了用户连续、快速、完整、可 靠、灵活的获得连续时间的关键数据拷贝;当由于误操作、测试、或者灾难对原始数据造成 破坏,PIT 拷贝可以帮助客户快速的、戏剧性的恢复最接近时间段、或者客户指定的时间段 的数据;快速的复制、同步、分离、恢复机制为客户提供了安全的、快速的、灵活的数据恢 复保障,极大的缩短故障恢复的时间,最大限度的降低灾难的冲击,减少用户的损失 ShadowImage 提供了全新的、经济的、可实施的容灾测试解决方案,可以在保持本地生 产系统和远程拷贝不受影响的情况下,通过远程 SI 的 PIT 拷贝,进行实时的、模拟真实数
218
据环境的灾难恢复计划的测试。 TrueCopy+ShadowImage 配合使用为用户提供了“终极”数据保护的解决方案,实现了 多重媒介、多重备份、异地容灾、本地镜像、本地恢复、异地恢复的立体数据保护解决方案。 与 HDS 的远程拷贝软件 TrueCopy 配合使用,可以非常灵活按照不通的需求和具体环境 情况组合各种异地容灾备份方案,提供具有高度的灵活性、高度的安全性、高度的数据一致 性、高度的可靠性的容灾数据保护解决方案 注:目前,HDS 的 TrueCopy 软件其独有的时间戳(Timestamp)和一致性组(Consistency Group)技术,是目前存储业界唯一可行且安全的存储系统之间的异步数据备份方案并被广 大用户采用。 z
TrueCopy-数据远程容灾解决方案
TrueCopy 数据远程容灾解决方案是 HDS 公司在全面分析各种操作系统、各种容灾技术、 仔细研究客户对容灾的需求和理念之后,结合 HDS Freedom 智能存储系统的特点推出的数 据远程容灾解决方案;彻底解决长期困绕用户的、难于进行容灾方案的真实演练、真实数据 测试的问题,最大限度的减少数据丢失问题;TrueCopy 是基于磁盘存储系统运行的软件包, 不依赖任何的主机操作系统和其他第三方厂商软件,为用户提供了最安全、最开放、最经济、 最实用的远程容灾解决方案。 HDS 公司作为全球最大的独立的磁盘存储生产厂商,专注于单一化产品生产的优势, 拥有熟悉 IBM、HP、SUN、Compaq、SGI、Dell、Window NT/2000 以及 Linux 等平台和远 程灾备实施的经验丰富的服务工程师,向用户提供全方位的灾备方案设计、技术咨询和实施 服务。 目前,HDS 的 TrueCopy 软件其独有的时间戳(Timestamp)和一致性组(Consistency Group)技术,是目前存储业界唯一可行且安全的存储系统之间的异步数据备份方案,保证 异步处理方式下的数据一致性和完整性,最大程度的减少数据的丢失,并被广大用户采用。 主要功能如下所述: 第一,TrueCopy Async 异步数据拷贝软件,是 HDS 公司独有的创新技术,是世界第一 也是唯一的在开放环境中基于存储硬件系统的、无需主机系统的、异步处理方式的、能够保 证数据一致性的远程拷贝软件,它可以在重复发生的灾难中保护数据,在任何远的距离保持
219
数据库记录被修改顺序的完整性。 其次,TrueCopy 可以在在任何距离下,提供完整的、可靠的异地或同城灾难数据恢复 和应用系统快速重新启动的解决方案,先进的处理技术能够最大程度的减少灾难时的数据丢 失,提升企业对事故和灾难的应变能力和快速反应能力。通过与 HDS
ShadowImage(本地
数据镜像拷贝软件)配合,可以用 PIT 拷贝获得真实的生产环境数据,不必中止生产系统的 运行,能够频繁的启动低廉花费的灾难模拟测试,最大的限度提升用户的投资回报率(ROI), 确保容灾计划的可操作性,提高用户的商业信心,免除客户的后顾之忧 另外,TrueCopy 简化、减少用户计划用于设备维护、数据迁移、数据集中、备份的业 务停顿时间。通过减少用户对缓慢的、高强度劳动的、基于磁带的数据备份技术的依赖,线 性化的提升 IT 业务操作的效率。TrueCopy Sync 同步数据拷贝软件,为用户的任何数据提供 了实时的、同步的远程“镜像”保护功能。 与此同时,TrueCopy Sync 与 Async 软件支持开放系统和 OS390 系统环境。NanoCopy 解决方案提供用户在世界任何地方,获得完全不间断的、连续的 PIT 时间段(Point in Time) 的远程数据拷贝。HXRC 扩展的远程拷贝软件完全与 IBM 大型主机 OS390 系统的 XRC 软 件和 GDPS 解决方案兼容,满足用户不同的远程数据备份方案和要求 z
TrueCopy Synchronous 远程容灾同步方式数据备份软件 远端的数据拷贝与本地的数据拷贝或生产数据永远保持一致,远端拷贝永远是本地数据
盘的“镜像” 备份存储系统总是与生产存储系统数据同步,本地存储系统与备份端存储系统同步进行 相同的 I/O 更新,备份端存储系统在更新时总是与生产端存储系统保持完全一致的顺序,以 保证数据的一致性和完整性。当生产中心发生灾难时,不会出现数据丢失。 不依赖于主机系统、文件系统、数据库系统,基于存储系统的工作机制,利用存储系统 控制器的控制台来启动、监控、控制远程数据备份的操作。节省主机系统的 CPU 资源,提 供用户开放的高可用性 任何厂商的同步处理方式对应用系统的响应时间都会有冲击。在进行远程数据备份时, 生产主机的应用程序系统发出写 I /O 指令,生产中心的存储系统同时向本地磁盘和备份端 的存储系统发出写操作的指令,必须等候备份端存储系统回复写操作完成以后,生产中心的
220
存储系统才向主机应用程序回复 I/O 完成,因此主机应用程序每次 I/O 将承受备份端存储系
图 15-24 TrueCopy 的异地备份 统 I/O 确认的延迟,以及由此带来的主机系统处理能力降低和资源消耗的冲击。 受应用系统 I/O 读写的活动频率、网络带宽、可以容忍的交易响应时间和其他因素的影 响,远程同步工作方式有距离的限制,一般小于 25 公里。 z
TrueCopy Synchronous 远程容灾异步数据备份软件
解决由于远程同步镜像方式给生产应用系统性能造成的巨大冲击和系统的压力,解决异
图 15-25 TrueCopy 的异步拷贝过程
221
地长距离的场地部署问题,以异步方式实现可靠的、经济的、可实施的容灾解决方案 在 TrueCopy 的远程容灾异步方式下,通过时间戳、分组号可以保证数据的一致性和完 整性,并在灾难发生时的数据丢失最少,恢复时间短,极大的提升了用户的投资回报率。而 其它厂商的远程容灾异步方式为了完全保证数据的一致性和完整性,需要额外的投资(更多 的磁盘盘组或更高的 CPU)才能实现。 在异步方式下,生产系统所发出的 I/O 操作至本地存储系统,本地存储系统处理结束后 即通知主机本次 I/O 结束。然后,本地生产存储系统将多个累计的写 I/O 异步(几乎实时发 送)的,不一定按顺序的传送到备份中心的存储系统中,因此在异步方式下,对应用系统的 性能没有任何影响 由于 I/O 操作不是同步的传送到备份中心,在异步方式下,就存在数据的传送顺序与实 际的数据的操作顺序不一致问题。为了解决这一问题,HDS 容灾软件对每个写入生产中心 存储系统的 I/O 都打上一个时间戳(TimeStamp)并进行一致性分组(Consistency Group), 在 数据传输至备份中心时,备份中心存储系统严格按照此时间戳的时间顺序重新排列并写入相 应的逻辑卷中,从而保证了备份数据的逻辑一致性与完整性。目前,HDS 的 TrueCopy 软件
图 15-26 数据块的异地异步复制分段 其独有的时间戳(Timestamp)和一致性组(Consistency Group)技术,是目前存储业界唯 一可行且安全的存储系统之间的异步数据备份方案并被广大用户采用
222
由于数据异步远程更新,应用程序不必等待远程更新的完成,因此远程数据备份的性能 的影响通常较小,并且备份磁盘的距离和生产磁盘间的距离理论上没有限制。只有在当传送 中的数据在生产磁盘控制器或在 TCA 中还没有形成数据一致组时生产中心发生灾难,这些 “in-flight”的数据就会丢失。但 TrueCopy 通过“consistency group”技术保证灾难发生时已 经发送到备份中心的数据将保持一致性,因此在系统和应用程序重新启动之前,需要恢复那 些“in-flight”丢失的数据。所花费的时间和造成的影响取决于客户的环境,例如应用程序 和设备配置的复杂性,更新的完整性等等。 HDS 支持的容灾通信链路协议为:Fibre Channel、ESCON、DWDM、ATM、E1/E3、IP、 SONET 等。如果采用 ESCON 通道直连方式,最大的距离可以为 43 公里,如果采用光纤通 道直连,最大距离为 10 公里(长波单模光纤),如果采用 DWDM,最大的距离可以达到 100 公里(上述通信链路可以运行在同步方式)。如果在 ATM、E1/E3 或 IP 链路下,采用异步方 式,理论上可以达到无限距离。 容灾系统的建设是一个系统工程,并不仅仅是建立海量存储系统、实现数据的远程备份, 更重要的是容灾系统的管理制度、应急计划的制定、容灾系统的切换演练。只有这样,才能 保证在灾难发生时,及时、有序的切换到容灾系统上运行,保证应用系统的业务连续性。 HDS 拥有既具备 IBM、HP、SUN、Compaq、SGI、Dell、Window NT/2000 以及 Linux 等平 台技术,也具备远程灾备系统设计和实施的经验丰富的技术专家,向用户提供全方位的灾备 方案设计、技术咨询和实施服务。
223
ShadowImage 提供了全新的、经济的、可实施的容灾测试解决方案,可以在保持本地生 产系统和远程拷贝不受影响的情况下,通过远程 SI 的 PIT 拷贝,进行实时的、模拟真实数 据环境的灾难恢复计划的测试
图 15-27 应用主机系统的容灾
图 15-28 数据备份的容灾 TrueCopy+ShadowImage 配合使用为用户提供了“终极”数据保护的解决方案,实现了 多重媒介、多重备份、异地容灾、本地镜像、本地恢复、异地恢复的立体数据保护解决方案。
224
与 HDS 的远程拷贝软件 TrueCopy 配合使用,可以非常灵活按照不通的需求和具体环境 情况组合各种异地容灾备份方案,提供具有高度的灵活性、高度的安全性、高度的数据一致
图 15-29 HORC 的多种应用 性、高度的可靠性的容灾数据保护解决方案 z
HDS 容灾系统的切换过程 A. 生产中心系统故障
图 15-30 基于 HDS 9900 的远程容灾系统
225
当生产中心主机故障或者整个磁盘子系统全部损坏时: 1)切断备份中心与生产中心的 TrueCopy 连接。 2)通过备份中心主机及主控台发出 TrueCopy 控制命令,进行 FAILOVER 切换操作。 将备份端存储系统中磁盘的 Read Only 状态改为 Write Enabled
状态,以供备份中心主机
进行读写操作。 B. 备份中心磁盘系统故障 当备份中心的磁盘子系统故障时,生产系统照常运行 ,数据被存储到生产中心的磁盘上 并在 BITMAP 文件中记录所修改的磁道,当备份中心的磁盘系统修复后,TrueCopy 自动将 生产卷的数据拷贝到备份中心的磁盘上。数据的拷贝是增量进行的,即只转送更改过的数据 所在的磁道。 C. 通信链路或 NISHAN 设备故障 当通信链路连接中断或 IP 设备故障时, 生产中心数据的修改以磁道为单位自动记录在 存储系统中的 BITMAP 文件中,一旦链路恢复正常,则可以将未传送的磁道传送到备份中 心 。 D. 系统的回切过程 当生产中心的系统设备完全恢复并具备生产运行条件时,可很容易地将业务运行系统从
图 15-31 灾难发生时的切换
226
备份中心切回到生产中心。 实现步骤: 1.
待非生产时间,停止备份中心的系统运行。
2.
通过备份中心主机发出 TrueCopy 控制命令, 将磁盘由 Write Enabled 状态改为 Read Only 状态。
z
3.
将备份中心的存储系统数据传送到生产中心存储系统中。
4.
待上述步骤完成后,从生产中心启动系统及应用。
HDS TrueCopy 实现方式 HDS TrueCopy 实现两个 Lightning 9900V 系统间的数据复制,这些系统可以处在同一
个数据中心或不同的地域。它主要包含下列部件: 1.
复制的逻辑卷对 (P-VOLs
and S-VOLs)
2.
HDS Lightning 9900V 子系统
3.
远程复制连接 Remote copy connections
4.
远程控制端口及本地控制口
HDS TrueCopy 支持 ESCON 及 Fibre Channel 两种远程连接端口,根据本地及远程数据 中心间的距离不同,不同传输协议的选择,TrueCopy 支持如下几种连接方式(仅以 Fibre Channel 为例): 1.通过裸光纤直连交换机,采用 FC 协议 生产中心与备份中心的光纤交换机通过裸光纤直连,两个中心存储系统的 TrueCopy 独 占端口通过光纤交换机和裸光纤进行连接,可以保证异步数据复制的性能。如果用户希望当 生产中心的存储系统故障或数据被破坏原因,生产中心主机可以接管备份中心的数据,此方 式裸光纤的数量要求较多,线路租费比较高,但由于采用多链路传输,可靠性比较高
2. 通过 DWDM 设备直连裸光纤 采用密集波分技术,可以加载多协议,例如 FC 协议、IP 协议,两个 DWDM 终端之间
227
图 15-32 用于光纤通道的 TrueCopy 模块
图 15-33 备份连接拓扑(电信裸光纤) 的距离可以延伸到 100 公里,解决了 FC 通道有效传输距离 10 公里的限制。生产中心的 2 台光纤交换机通过 4 条光纤 FC 端口连接到 DWDM 终端,租用电信的裸光纤一条,那么通 过 DWDM 技术,可以将多路 FC 通道和 IP 网络复用在一条裸光纤上,比较好的解决了裸光 纤的利用率和多协议复用的问题。生产主机接管备份中心的方式与工作流程与上述 FC 直连 方式一样。但此方案整体投资比较大,DWDM 设备投资较高,一般适用于光纤资源比较紧 张的情况。
228
图 15-34
备份连接拓扑(DWDM 连接,距离小于 100Km)
3. 利用 IP 网络,采用 ATM 或 E1、E3 线路,通过 FC/IP 转换器 将 FC 加载在 IP 网络中传输。此方案采用国际流行的 IP 网络协议和链路,通过 FC/IP 转换设备(例如 Nishan),将 FC 通道协议打包在 IP 数据包内,通过 IP 链路传输,理论上 没有距离的限制,适用于远程异步数据复制,是性能价格比很好的选择,具体的带宽要根据 业务量峰值、距离、应用系统高峰时的写 I/O 的数量、写 I/O 块的大小、应用系统所能承受 的响应时间的延迟、生产与备份中心之间的距离来计算。但由于 IP 链路的带宽和协议限制,
图 15-35 备份连接拓扑(基于 FC Over IP) 无法满足生产中心接管备份中心磁盘的要求。
229
5.
各种种通信链路所提供的带宽
表 15-3 给出了各种连接通路的传输带宽。
表 15-3 各种连接通路的传输带宽 线路类型
理论带宽 (Mbps)
实际带宽 (去掉 overhead 后) (Mbps)
备份 1TB 所需时间
T1
1.544
1.08
85 天
T3
45
31.31
71 小时
100bT
100
70.00
31.7 小时
OC3
155
108.50
20.4 小时
OC12
622
435.40
5.1 小时
千兆以太网
1000
200.00
3.1 小时
OC48
2488
1741.60
1.2 小时
OC192
9953
6967.10
19 分钟
230
15.2 McData 产品介绍 15.2.1
McDATA Director 6000 系列 – 32~140 端口 Director
McDATA Intrepid 6000 系列 Director 是现在和未来的最佳存储网络的理想平台。凭借着 业界最高的安全性等级、无以伦比的性能、出色的可靠性和功能出众的管理工具,McDATA Intrepid Director 是支持关键任务型业务需求—24×7—的最佳选择。一个在核心采用 Intrepid Director 的 SAN 将可以适应呈指数式增长的存储的需要,并能够满足一些目前甚至还无法 想象的商业应用的要求。 z
Intrepid 6140 Director
具有 140 个端口的 Intrepid 6140 Director 适用于那些需要数百个甚至上千个端口的超大 型系统,是一种理想的高性能、灵活构成组件。它是目前唯一的一种单级 140 端口 Director, 它采用了一种独立于协议的架构,可以支持未来出现的新型技术,从而提供无以伦比的投资 保护。Intrepid 6140 还可以满足端口数更高的存储网络和大型机 FICON 环境的连接需求, 从而提供出色的灵活性。 z
Intrepid 6064 Director
对于那些需要 Director 级别的性能和可靠性,同时连接端口低于 64 个的企业来说,64 端口的 Intrepid 6064 Director 是一种经济有效的理想解决方案。它可以为需要 24×7 的关键 业务提供无以伦比的 99.999%可用性、性能、可扩展性和可靠性。 z
Intrepid 6000 系列 Director 的主要特征:
通过 99.999%的可用性来确保业务的连续性:所有关键部件全部双冗余;在线不中断任 何应用的微码装载和激活;彻底消除因处理器 failover 或微码升级所造成的被迫停机情形 通过集中式的管理,最大限度地增加系统管理资源 提供持久的高性能:无阻塞 CrossBar 单步交换、稳定的迟滞时间和独享 Buffer Credit 通过独立于协议的设计,提供投资保护 通过对光纤通道和 FICON 的支持,实现灵活的部署
231
图 15-36 McData 交换机(Director)外形 与目前任何其它交换设备相比,MCDATA 的 Intrepid 6000 系列 Director 使用更方便、 管理更简单,并提供了更高的可用性。 坚实的可用性 由于故障停机可能使公司每小时有数以百万元的损失,信息技术管理人员绝不容忍采用 不稳定、不可靠的交换设备来建设企业的存储网络。IntrepidTM6000 系列 Director 以市场上 最高的可用性--99.999%,来确保在线数据的连续性访问。用 6000 系列 Director 构筑的存储 区域网络,为连接所有其它 SAN 设备提供了高度可用的网络核心。由于其所有主要部件的 冗余特性、故障件自动切换、以及 Call Home 预警功能,具备自动修复功能的 IntrepidTM 6000 系列 Director 为关键数据的连续存取提供了坚实的保障。 企业级的管理 McDATA 的 SAN 管理软件 SANavigatorTM 简化了 SAN 的构建、配置和控制,需要更 少的资源,并降低了管理费用。针对企业系统昂贵的管理费用,SANavigator 使公司能最充 分地利用管理性资源。SANavigator 提供: z
对无论任何厂商协议的多种设备的管理
z
通过事件管理和通知以提高可用性
z
从单一界面实现设备发现和管理
z
保存存储网络配置以实现业务连续性
z
稳定的性能
232
不能及时存取数据,对公司来说意味着浪费资源并由此损失机遇。MCDATA IntrepidTM 6000 系列 Director 的高性能和不间断性,使公司能够充分利用其最宝贵的资产 -- 数据。使 用大量网络 Switch 建造的骨干网,数据需要通过大量的跨交换连接,使性能大打折扣,与 此不同,IntrepidTM6000 系列 Director 通过直接的背板交换可以很容易适应和满足商业需要。 速度 2Gb/S 或更高 IntrepidTM6000 系列 Director 为诸如视频等应用提供 2Gb/s 的传输速率并备以额外所需 带宽。此外,独立于协议的 IntrepidTM6000 系列 Director 只需简单升级即可支持 10Gb/s、 FCIP 和 iSCSI 等新技术。 存储区域网络的全面解决方案 McDATA 提供的全系列存储网络交换产品包括 Director、部门级 Switch 和边际设备,这 些设备都源自 McDATA 公司在建造“核心到边缘”解决方案领域的丰富经验。互用性比仅 仅按照工业标准设计和制造产品更为重要。MCDATA 建造了投资数千万元的系统集成实验 室对其所有产品及解决方案进行实地安装的完整测试。其中互操作性测试包括与业界主流的 服务器、存储,以及与竞争对手存储网络设备的互用性测试。 MCDATA 在投入生产前均会对产品进行长期测试,以此降低风险,确保存储区域网络 的成功实施与运营。 表 15-4 McDat 交换机规格 可用性
99.999%
可热插拔的冗余电源、风扇、处理器
可热插拔的光学端口模块
联机诊断
联机、不中断应用的固件加载和激活
兼容性 光纤通道协议
FC-PH Rev4.3,FC-PH-2,FC-PH-3,FC-GS-2,FC-FLA,FC-FG, FC-SW-2
光纤通道组件 MIB
FE-MIB
TCP/IP MIB-II 组
系统、接口、地址解析、IP、ICMP、TCP、UDP、SNMP
服务类别
二类、三类、F 类
性能 端口速度
2Gb/s,全双工
缓冲信用
每个端口 60
交换延迟
平均不超过 2 微秒
233
可扩展性 每个机箱的端口数
Intrepid 6064:64 个端口 Intrepid 6140:140 个端口
介质类型
热插拔业界标准 LC 小接口
所支持的光介质类型/距
短波:500 米 (1640 英尺) / 1Gb/s
离
长波:300 米 (1148 英尺) / 2Gb/s
借助中继器可达距离
10 公里 (6.2 英里) 100 公里 (60 英里)
电缆铺设
62.5/125 微米多模式,300 米 (1148 英尺) 50/125 微米多模式,500 米 (1640 英尺) 9/125 微米单模式,10 公里 (6.2 英里)
管理选项
SANavigator 软件 EFCM 采用 FICON 管理服务器(CUP)的 SA OS/390 SNMP 开放式系统管理服务器 以太网 (10/100 Mbps) 光纤服务
简单名称服务器
管理服务器(可选) 广播 名字服务器分区 访问
In-Band 管理 以太网(10/100Mbps) 光纤服务 简单名字服务器 管理服务器(可选) 广播 名字服务器分区
诊断
加电自检 联机端口诊断、CTP、SBAR 内部和外部回送 联机系统健康状况诊断
可维护性
不中断应用的固件升级 HotCAT(热代码激活技术) Call-Home、E-mail 报警(通过 McDATA 的软件) 智能热保护 机箱、端口、FRU 标示
物理尺寸
Intrepid 6064
Intrepid 6140
高度
39.7 厘米(15.7 英寸,9U)
53.03 厘 米 (20.88 英 寸,12U)
宽度
44.5 厘米(17.5 英寸)
44.45 厘米(17.50 英寸)
厚度
54.6 厘米(21.5 英寸)
61.37 厘米(24.16 英寸)
重量
52.3 千克(115 磅)
78 千克(172 磅)
安装选项
可机柜安装,19 英寸 EIA 机柜
环境 非工作温度:
4°至 52°C (40°至 125°F)
234
非工作湿度:
8%-80%
非工作高度:
12192 米(40000 英尺)
工作温度:
4°至 40°C (40°至 104°F)
工作湿度:
8%-80%
工作高度
3048 米(10000 英尺)
电气
Intrepid 6064
Intrepid 6140
工作电压:
100-230VAC
180-264VAC
电流:
2-4AMP
4.66AMP
热输出:
每小时 1672BTU
每小时 2873BTU
功率:
460 瓦
842 瓦
规定
UL, CSA, CE Mark, VCCI Class 1, FCC Part 15
McDATA Switch 3232 – 32 端口交换机
15.2.2
为使整个企业都能从储存区域网络(SAN)中受益,IT 经理已经意识到,许多部门级 SAN 需要超过 16 端口的连接性能。为满足这一需要,McDATA 特别推出了 Sphereon 3232 光纤 交换机—业界唯一的基于部门级连接能力的 2Gb/s 32 端口光纤交换机。 Sphereon 3232 光纤交换机提供了比多个 16 口交换机集连更优秀的解决方案。多个 16 口光纤交换机的集连需要多个 ISL 连接,这将导致网络性能的下降,同时增加了网络管理的 复杂程度。 McDATA Sphereon 3232 光纤交换机为 IT 经理提供了空前的 SAN 实施的灵活性。不论 是建设一个部门级 SAN,还是把部门级 SAN 集成到一个企业级存储网络中,Sphereon 3232 光纤交换机都可以适应数据系统用户的多种需求。选择之一就是 McDATA Flexport 技术—允 许用户从 16 端口开始按需配置端口数量,再逐步扩展到 32 端口。 Sphereon 3232 光纤交换机为各端口提供了 2Gb/s 非阻塞带宽的优良性能,同时具备了 以前只有数据中心级产品才具备的重要特征。目前只有 McDATA 提供具有如下特点的部门 级光纤交换机: z
2Gb/s 无阻塞连接性
z
连接速度的智能自感应能力
z
热插拔冗余电源与制冷
235
z
按需配置端口数量的 McDATA Flexport 技术
z
在线且不中断应用的固件装载和激活
z
网络活动的在线诊断和故障隔离工具
除以上所具备的业界同类最佳特征之外,Sphereon 3232 光纤交换机提供了最高的可用 端口密度,仅需占用立式机柜空间的 1.5U(2.63”)。在机柜空间甚为宝贵的条件下,为扩容 提供足够的空间。 表 15-5 McData 交换机 3232 指标 Sphereon 3232 Fabric Switch
可伸缩性
配置:ES3232 和 ES3232F (Flexport)
端口数:
32 个 G 端口
技术指标:
介质类型:
热插拔、工业标准 LC SFF
可用性
热插拔冗余电源
支持光学介质类型/距离
热插拔冗余风扇
短波:
500 米(1640 英尺)
热插拔光学部件
长波:
10 千米(6.2 英里)
在线诊断
带重发器: 100 千米(62 英里)
在线且不中断应用的固件
电缆:
装载与激活
62.5/125 微米多模,300 米(1148 英
网络活动故障隔离工具 兼容性 光纤信道
FC-PH Rev 4.3, FC-PH-2
协议:
FC-PH-3,
尺) 管理性选择
Embedded Web Server SNMP
FC-FG, FC-SW-2 Fibre Alliance MIB 光纤通道结构组件 MIB TCP/IP MIB II 光纤信道 服 务 类
2类
别:
3类
开放系统管理服务器 访问
端 口 速
1.0625-2.215 Gbps,全双工。
度: 累计处理
128Gbps
能力: 缓存度:
每个端口 60
交 换 迟
平均小于 2 微秒
内嵌式 以太网(10/100Mbps)
光纤网络服
简易名字服务器
务
顺序传输 (2、3 类) 管理服务器(可选) 广播
F类 性能
McDATA 软件 命令行界面
FC-GS-2,
FC-FLA, SNMP:
9/125 微米单模,10 千米(6.2 英里) 50/125 微米多模,500 米(1640 英尺)
名字服务分区 诊断特性
加电自检 在线端口检测 内部和外部环路 在线系统状态
滞:
236
服务能力
热插拔电源和风扇 热插拔光学部件 固件在线装载与升级 Call- Home、email(使用 McDATA 软件) 维护端口(DSUB) 智能过热保护 单元、端口、FRU 状态指示 系统错误 LED 指示 FRU 故障 LED 指
物理尺寸 高度:
2.55 英寸(1.5U)
宽度:
17.5 英寸
深度:
25.17 英寸
重量:
34 磅
安装选择
机架安装、19 英寸 EIA 架、工作台 堆叠
操作环境 非操作温度: 华氏 40 度至 125 度 湿度:
8%至 80%
海拔高度:
40000 呎(12192 米)
工作温度:
华氏 40 度至 104 度
湿度:
8%至 80%
海拔高度:
10000 呎(3048 米)
电气 工作电压:
100-240 伏交流电
电流:
2.5 安培
热输出:
每小时 836 英国热量单位
执行规范
UL、CSA、CE Mark、VCCI Class 1、 FCC Part 15 Class
15.3 IBM 存储产品解决方案 IBM 作为一个大型的数据处理和加工的设备制造企业,其数据存储部门为企业中所有 信息系统提供支持的高性能磁盘存储解决方案。
15.3.1 成熟的存储磁盘阵列 SAN 构架全光纤磁盘阵列--IBM TotalStorage FAStT700 存储服务器,它依靠领先的技术 实现快速数据访问;提供扩展能力以满足公司独特的需要;提供高可用性以实现最优安全性
237
和效益;保留人力资源以应对核心工作任务。
15.3.1.1 依靠存储保持快速发展 随着日常的业务流程越来越依靠数据,各公司正在大力发展自己的存储基础设施。但是, 如今的公司必须在存储需求和紧张的预算之间作权衡。因此,所采用的解决方案必须经济高 效、可扩展,并且能够满足各种存储需求。
图 15-37 IBM FastT700 面板 IBM 存储系统部的工作人员能够提供灵活的业务解决方案来实现最高的性价比。IBM TotalStorage FastT700 存储服务器是一种全光纤的存储区域网(SAN)解决方案,能够以最 合适的价格提供您所需要的性能。从与主机接口到磁盘驱动器全光纤通道的结构,为企业用 户提供最先进的磁盘技术。
15.3.1.2 提供领先技术以实现优异性能 依靠多达 8 个光纤通道直接主机或 SAN 连接,FastT700 存储服务器提供了快速数据访 问能力(高达 383MBps 和每秒 60,000 次 I/O),特别适合于那些实时性能是关键因素的计算 环境。除了高带宽外,FastT700 还支持各种操作系统,包括 IBM AIX、Sun Solaris、HP-UX、 Linux、Novell 和 Microsoft Windows NT/2000 等。在 FastT700 存储服务器内,所有磁盘均为 最先进的、支持光纤通道的热插拔磁盘驱动器,使用户可以采用最先进的技术。
15.3.1.3 提供可扩展性和灵活性以满足发展需要 FastT700 的模块化设计可以按照需要来购买部件,它可以从 18GB 扩展到使用 22 个机
238
箱的 16TB。每一个 FAStT EXP500 最多支持 10 个光纤通道磁盘驱动器。另外,还可以采用 和选择合适的 RAID 级别,从 0、1、3、5 到 10,这样做的目的是为了与应用相匹配或满足 特殊经费需要,从而能够扩展和充分利用现有和将来的投资。
15.3.1.4 提高可用性以尽可能减少与停机相关的效益损失 公司的成功与其支持全天候运营的能力成正比。意外的停机将影响到数据检索和其它的 业务流程,这意味着效益损失,并造成客户的不满意。而 TotalStorage FastT700 解决方案是 高度可用的解决方案,能够提供部件发生故障时的安全性。双热插拔 RAID 控制器提供了高 吞吐量和冗余度,并且每个控制器支持高达 512MB(合计 1GB)的电池备份高速缓存。冗 余风扇、电源和动态存储管理进一步提高了可用性。并且提供了 Remote Copy 的远程灾难恢 复功能,为业务提供高可靠性的保障。
图 15-38 FastT700 管理界面
15.3.1.5 为核心竞争工作保存资源 FAStT 存储管理器使您能够在单个控制台上管理多个 FastT700 系统。从一个地点控制 所有的环境节省了用户的资源,可以将精力放在更有竞争力的核心业务上。 这种软件是图形化的软件,用户无须记忆任何命令,可以轻松地管理 FAStT 磁盘阵列。 如图 15-38 所示。
239
15.3.1.6 灾难恢复
图 15-39 FastT700 异地备份 FastT700 存储服务器提供了强大的灾难恢复功能,该功能是基于磁盘阵列控制器的,与 所连接的操作系统无关,因此,可以提供跨平台支持的、数据级的灾难恢复解决方案。
240
建立远程灾难恢复功能,需要在 FastT700 中配置 Remote Copy 功能,该功能提供了激
图 15-40 FastT700 容灾系统 活该功能的密码。它可以实现在两台 FastT700 之间自动地实时镜像,与操作系统无关。由 FastT700 的控制器来控制数据的同步。 采用 Remote Copy 功能,需要在 FastT700 控制器 上指定镜像端口,(不可以用主机的光纤端口),两台 FastT700 控制器之间采用光纤连接起 来(目前支持 10 公里,通过 RPQ 方式,可以支持到最远 70 公里甚至更远),如上图中红线 所示,(黑线表示数据的连接,蓝线表示冗余连接)。一旦,本地(Primary)出现故障,异 地(Secondary)仍有镜像数据供系统使用。如果异地出现故障,不会影响到本地工作,但 此时,停止数据镜像。每个阵列最大支持 32 个镜像对。 表 15-6 IBM FastT700 存储服务器一览 型号
1742-1RU
RAID 控制器
双活动 RAID 控制器
控制器高速缓存
高达 1GB,电池备份
主机接口
光纤通道(FC)交换和 FC 仲裁环路(FC-AL)
连接
4 个标准和多达 8 个附加微型集线器
驱动器接口
FC-AL
支持的驱动器
18.2、36.4 和 73.4 GB 10000 RPM;18.2 GB 15000 RPM
RAID 级别
0、1、3、5 和 10
存储分区
最多 224 个
支持的最大驱动器个数
220 个(使用 22 个 IBM FAStT EXP500 扩展单元)
风扇和电源
双冗余、可热插拔
机架支持
IBM 2101-200,Netfinity 企业机架
241
支持的服务器
欲查看最新列表,请访问 ibm.com/storage/fast700
支持的操作系统
IBM AIX、Solaris、HP-UX、Microsoft Windows NT、Windows 2000、Novell NetWare 和 Linux,欲查看最新列表,请访问 ibm.com/storage/fast500
管理软件
IBM FAStT 存储管理器(v8.21)
光纤通道交换机支持
IBM TotalStorage SAN Switch 2190 S08/S16/F08/F16 IBM 2042-001(64 端口)、2042-128(128 端口) IBM 2032-064、2031-032 和 2-31-016
光纤通道交换机支持
Brocade 3200
尺寸
174.5mm(高)′444.5mm(长)′609.6mm(宽) (6.87 英寸′18 英寸 ′24 英寸)
38.6 公斤(85 磅)
重量
IBM FAStT EXP 扩展单元 支持的驱动器个数
多达 14 个光纤通道驱动器(18.2、36.4 或 73.4 GB, 146 GB)
风扇和电源
双冗余、热插拔
尺寸
131.88 毫米高×480 毫米宽×575 毫米深 (5.2 英寸×18.9 英寸×22.63 英寸)
15.3.2
ESS 800 系统
ESS 800 系统的主要特征包括如下几点: z
为 IBM eServer p 系列和 UNIX、Microsoft Windows NT、Microsoft Windows 2000、 Novell NetWare、Linux 和 SGI IRIX 平台以及 IBM eServer i 系列和 AS/400 平台、 IBM eServer z 系列和 S/390 平台提供共享存储
z
使用双集群 RISC SMP 处理器、大型高速缓存和串行磁盘连接,提供优异的性能
z
提供高级拷贝服务—专为实现快速的备份和灾难恢复而设计
z
使用冗余硬件,包括镜像化的写高速缓存以及 RAID-5 和 RAID-10 磁盘保护,为 关键任务业务应用提供所需的高可用性
z
通过 ESCON、FICON、光纤通道、2Gb 光纤通道/FICON 或 Ultra SCSI,实现与连 接主机之间的快速数据传输
z
提供高效的中央运行管理(通过一个 Web 浏览器或命令行界面 CLI)或使用 ESS API (Bluefin SMIS),提高管理效率
242
z
使拥有多个异构主机的企业能够将物理磁盘容量扩展到最高 55.9TB,同时保持优 异的性能
具体描述为: 1. 可满足当今业务需求的性能 IBM TotalStorage 企业存储服务器(ESS)为满足和超越当今大多数高要求应用的性能 需求而设计。高速磁盘可提供快速的数据访问。内部串行存储架构(SSA)磁盘路径可支持 流水线数据移动。数据将自动地以条纹化的方式分散到多个磁盘上,从而增加了 I/O 并行性 并减少了事后人工调整的必要性。高效的高速缓存管理使数据系统用户能够以更快的速度访 问更多的数据。 2. 为主要的服务器平台提供共享存储 IBM ESS 是第三代高级架构磁盘存储系统。它可以支持今天的业务连续性和数据可用 性需求,使得员工、客户和交易合作伙伴能够通过一个可靠、具有灾难抵御能力的共享存储 系统,实现 24×7 级别的数据访问。此外,它还可以通过异构连接、高性能和易管理性功能 提高业务效率,从而帮助降低总拥有成本(TCO)。 很多类型的服务器平台都能够以并发方式连接到 ESS—包括 i 系列和 AS/400;Linux、 Novell NetWare、Windows NT、Windows 2000 或运行 IRIX OS 的 SGI Origin 服务器;以及 多种类型的 UNIX 服务器。因此,ESS 是拥有多个异构服务器的组织实现增长的理想选择。
3. 为分布式系统提供企业级存储 随着更多的关键业务信息处理将在分布式系统(运行多个不同的操作系统)上进行,IBM ESS 将在提供出色价值的同时,还能够为数据系统用户提供优异的性能。ESS 不仅仅是简单 地支持跨企业平台的存储共享—它可以通过以下多种强大功能,在整个企业的范围内提高存 储资源的性能、可用性、可扩展性和易管理性: 第一,FlashCopy 提高了一个高级卷复制工具,在进行备份和运行其它拷贝应用时可以 显著地减少应用停机。FlashCopy 高效的写拷贝 NOCOPY 选项在帮助减少系统开销的同时, 还允许灵活地重用本来属拷贝操作专用的磁盘容量。 其次,对等远程拷贝可在一个远程地点维护数据的一份同步拷贝(随时是与主拷贝同
243
步)。数据的这一备份拷贝可用于在主系统发生故障时实现快速恢复。这一可选功能可以使 数据系统用户电子商务应用的运行不被中断。 第三,扩展远程拷贝(XRC)可以在一个远程地点(通过电信线路连接,距离不受限 制)提供 z/OS 数据的一份拷贝,用于在主存储系统发生故障的情况下使用。XRC 的目标在 保护数据完整性的前提下,实现不间断的全异步远程拷贝。 另外,ESS 可以灵活、高效地将物理容量划分为不同大小的逻辑卷。这些逻辑卷被分配 给需要存储容量的主机,也可在多个主机之间共享(以支持集群应用)。此外,还可以在客 户的控制下在主机间进行容量的重新分配—同时保持 ESS 在线。通过定制卷可为 S/390 服 务器定义不同大小的卷,使管理员能够通过对系统进行配置实现最优的性能。 4. 确保数据访问的高可用性 ESS 中内建了 24×7 级别的运行支持。在 RAD-5 和 RAID-10 磁盘阵列为数据提供保护 的同时,远程拷贝技术还可以实现快速的数据备份和灾难恢复。ESS 使用双活动处理集群, 可提供故障切换、热备用功能以及热交换磁盘驱动器、镜像化的写高速缓存以及冗余电源和 散热设备。 ESS 还包括了集成的预防自诊断功能,可以不间断地对系统功能进行监视,防止宕机。 例如,预测故障分析(Predictive Failure Analysis)功能可以就指定硬件组件尚未解决的问题 向数据系统用户发出通知,这样数据系统用户就可以在这些问题未影响到系统性能之前解决 它们。 表 15-6 IBM 企业存储服务器 800 型一览 582GB 到 55.9TB
物理磁盘存储容量 高速缓存大小
8, 16, 24, 32 或 64GB
主机服务器连接
最多 32 个 SCSI 或 ESCON 端口,最多 16 个光纤通道/FICON 端口,可交叉配置 物理特征
体积
75.25″(高)×54.50″(长)×35.75″(宽) (1913mm×1383mm×909mm)
重量
2200 磅(998 千克) 运行环境
244
60o 到 90oF(16o 到 32oC)
温度 相对湿度
20%到 80%
最高湿球温度
73oF(23oC)
散热值
16000BTU/小时
电源
三相 50/60Hz 6.4kVA
电气 可支持的系统
1
S/390 和 z 系列(z/OS, OS/390, VM, VSE, TPF, Linux); AS/400 和 i 系列; Compaq; DEC; HP; 基于 Intel 处理 器的服务器(Novell NetWare, Linux, Windows NT, Windows 2000); RS/6000; RS/6000 SP; p 系列; Sun 和 SGI Origin 服务器(IRIX) 1
有关可支持服务器的详细信息,请访问 ibm.com/totalStorage/ess。
5. 内建的灵活性 ESS 可以提供出色的灵活性,包括:可交叉配置的磁盘大小和速度(获得最优的性价比 和可扩展性) ;可交叉的 RAID-5 和 RAID-10 保护;磁盘容量、缓存大小和主机连接的独立 可扩展性;客户控制的逻辑卷大小以及服务器间存储容量的在线重分配。
6. 为环境快速增长提供可扩展性 ESS 非常适宜用于电子商务和其它需求增长难以预测的应用。它在提供高可扩展性的同 时,还能够保持优异的性能。 ESS 中使用的磁盘驱动器是以集成 8-磁盘驱动器组(称为 8-磁盘组)的形式提供的。 磁盘驱动器的容量为 10000rpm 的 18.2GB、36.4GB、72.8GB 和 145.6GB 驱动器,以及 15000rpm 的 18.2GB、36.4GB 和 72.8GB 驱动器。 ESS 800 型最多可配置 384 个磁盘驱动器;当使用 145.6GB 的磁盘时,可以提供最高 55.9TB 的物理容量。 7. 提供存储组网价值 ESS 增加了存储区域网(SAN)的价值。ESS 能够很好地处理 SAN 的基本功能,包括 高速 2Gb 光纤通道连接、异构服务器间共享每一光纤通道端口的能力以及内建的 LUN 屏蔽 (SAM 安全性)支持。此外,ESS 更能够进一步能够支持网络连接存储(NAS)网关,从 而使 SAN 能够同时处理 SAN 上的传统块 I/O 和 TCP/IP 网络上的文件 I/O。 8. 总拥有成本 ESS 是可以帮助数据系统用户降低 TCO 的理想选择。ESS 的关键特性—如高级业务连
245
续性功能、性能、可扩展性、对驱动器容量和速度进行混合和匹配的能力、异构连接和开放 软件架构提供的灵活性,说明了为何 ESS 能够提供如此出色的价值—而以上列出的还只是 其中的少数原因。它是存储整合的最佳选择,从 TCO 的角度看也是一个明智的选择。 9. 为 S/390 和 z 系列服务器提供领先的性能 对于 S/390 和 z 系列服务器,ESS 提供了如下先进功能: 并行访问卷(Parallel Access Volume):以前的 S/390 在同一时刻只允许每一逻辑卷执行 一个 I/O 操作。现在,由于任何可支持的操作系统可在同一时刻对同一个卷进行多个 I/O 操 作,所以性能得到了提高。 多应用(Multiple Allegiance):这一功能允许不同的操作系统对同一逻辑卷执行多个并 发 I/O操作,从而可以帮助减少排队现象并显著地提高性能。多应用特性和可选的并行访问 卷功能使 ESS 能够并行处理更多的 I/O 操作,所以能够使性能大大提高,使更大型的逻辑 卷能够得到更有效的使用。其结果是存储管理的简化和成本的降低。 优先级 I/O 队列:存储服务器可以使重要的任务能够优先访问存储资源。通过优先级 I/O 队列,ESS 可以使用 OS/390 负载管理器提供的信息管理 I/O 处理队列—使 I/O 的优先级与 应用的优先级相匹配。 10.
一个完整的管理解决方案
IBM TotalStorage 软件产品家族提供了一个集成的存储管理工具集,使存储管理员能够 以集中的方式对 ESS 进行监视和管理。 IBM TotalStorage 企业存储服务器专家(IBM TotalStorage Enterprise Storage Server Specialist)工具可以帮助存储管理员控制和管理 ESS 的存储资产。通过一个浏览器界面, 存储管理员可以从工作中、家中或途中通过一个安全的网络连接访问这一 ESS 专家工具。 IBM TotalStorage 企业存储服务器专家(IBM TotalStorage Enterprise Storage Server Expert,注意与前一段中提到的工具不同)可以帮助存储管理员监视企业中所有被连接的 IBM 企业存储服务器的性能。这一创新的软件工具可以提供性能统计数据和灵活的资产管 理功能,并能够通过一个公共的浏览器界面跟踪多种容量信息。因此,这一可选工具使管理 员能够以集中的方式管理企业中任何地点的所有企业存储服务器。
246
15.3.3 IBM 存储归一化实施方案 15.3.3.1
SVC 简介
存储技术从直接连接的磁盘阵列发展到集中式的 SAN(存储区域网络),在连接性和性 能上带来了巨大的优势。然而,对 SAN 用户的研究显示,虽然存储区域网络具有这些优点, 但是 SAN 中磁盘利用率只有 50%左右,不同类型和品牌的存储的统一调配和管理非常复杂。 IBM 最新推出的 IBM TotalStorage SAN Volume Controller (又名 IBM 存储魔法石)就是为解 决此类问题的开创了新的方式。 SAN Volume Controller(缩写为 SAN VC),SAN 控制器,是存储业界又一次崭新的突 破,就像存储历史上的 RAID,主机系统的存储管理体系和虚拟磁带技术,这些重要的发明 均源自 IBM。SAN Volume Controller 是整个 SAN 网络的控制器,它将整个 SAN 中的各种 存储设备整合成一个巨大的存储池,充分利用存储资源和按需分配存储空间、性能和功能。 而传统的 SAN 网络中,每种存储系统都自成一体,就像一个个独立的孤岛,无法构成一片 统一的大陆。 SAN VC 实现了虚拟存储层(Virtualization Layer)的功能,将存储智能加入到 SAN
图 15-41
SVC 存储虚拟化
的网络中。现在用户可以按照应用不断变化的需求来分配存储,而不再受制于存储子系统设 备在功能和性能上的限制。SAN VC 又是一个 SAN 网络的中心管理控制点,而且它对服务 器的操作系统和存储子系统透明。如图 15-41 所示。
247
这个 SAN 的中心控制器具备更为灵活的磁盘管理功能,极大的提高了存储管理的效率, 例如可动态创建和扩展逻辑卷等。而且,SAN VC 为各种不同的存储设备提供了一个统一的 数据复制平台,例如瞬间复制-FlashCopy 和远程复制-Remote Mirroring。这些复制功能都允 许源磁盘卷和目标磁盘卷可以存在于不同品牌的磁盘阵列上。 透明的数据迁移是 SAN VC 的基本功能,当 SAN VC 被加入到一个现有的 SAN 环境中 时,不需要做数据迁移,SAN VC 把现有的磁盘配置原封不动的继承下来(这是 SAN VC 的 Image mode),这样对服务器上的应用是完全透明的。当 SAN VC 完全配置好以后,它又 可以将原先磁盘上的卷及数据透明的迁移到其他真正的虚拟卷中。所有的迁移过程对服务器 透明,因此不需要中止应用。 IBM SAN VC 是一个软硬件集成化的产品,专业的虚拟存储软件运行在集群式的硬件引 擎上。它使用了定制的 IBM eServer xSeries 服务器,运行的存储操作系统是基于 Linux kernek 的。与 SAN 网络接口是工业标准的 HBA 卡。由于 SAN VC 是为一个完全开放的存储环 境设计的,兼容各种不同的存储设备。用户可以将各种存储方案融合其中,而不用担心 SAN VC 会有什么封闭性。SAN Volume Controller 天生具备灵活的扩展能力,可以使用户在存 储性能和存储容量方面平滑无缝的升级。例如,扩展控制器个数可以增加性能,而往存储池 中增加磁盘则可以增加容量,这两方面的扩张都可以在线完成,不需要中止应用。SAN VC
图 15-42 SAN VC 系统结构示意图 的主控台提供了自动向 IBM 服务中心报警(call home)和远程支持的能力。
248
15.3.3.2
SAN.VC 小结
可以看出,SVC 是一个虚拟存储的解决方案,提供了如下功能: z
为高性能和高效管理而设计的 SAN 嵌入式(In-band)虚拟存储
z
一个集中化的磁盘存储池 l 可包含不同种类和品牌的磁盘系统
z
为卷管理和数据复制提供的统一平台
z
瞬间复制-Flashcopy 在 SAN 一级实现,可跨不同的磁盘系统
z
远程复制-Remote Mirror 可在不同的磁盘系统上
z
透明的、不影响应用运行的数据迁移
z
灵活开放的体系结构:
z
易于实施
z
易于在性能和容量双向发展
z
远程报警和诊断 t
z
企业级的高可靠性和稳定性
z
支持 r NT, Linux, 和各种主流 UNIX operating systems,支持各种存储
z
流量负载均衡和切换
z
投资保护
15.4 Netapp 产品分析 Network Appliance 是提供网络数据高端存储和高速缓存设备的专业公司, 其业绩高 速发展,是美国 E 百强里增长第 4 快的企业。公司是网络数据存储解决方案的市场领导者, 其网络存储服务器 (FILER)及网络缓存解决方案(NetCache)提供高效、简捷、可靠的数 据存取 。 自 1992 年成立至今,全球已安装了超过 45000 套,连续 10 年以每年营业额和利 润翻番的速度高速增长。其销售和 利润增长率均位居全美高科技企业前列; 为 NASDAQ 上市 公司, 其股票列为 NASDAQ 100 和华尔街标准普尔 500 成分指标股(NTAP); 1999,2000 连 续两年被财富杂志评为全美最快成长公司第四位; 被商业周刊杂志评为 99 年全美最佳业绩 公 司 第 19 位 , 1999 , 2002 年 连 续 四 年 名 列 高 速 增 长 公 司 前 100 位 (20th/00) (http://www.businessweek.com/2000/00_13/bw50.htm /http://www.businessweek.com/
249
2000/00_22/b3683022.htm) 截止到 2005 年,其数据高端存储设备 FILER 占据网络存储市场的 61%,全球最大的 10 家 ICP 有 9 家用其存储管理内容,处于绝对优势地位;在 NAS NETWORK- TTACHED STORAGE) 市场里,Network Appliance 远远超过 EMC,成为了这个领域里的领导者,占有率达到了 40.2 %,而 EMC 则下降到了 13.5%。 NetApp 的哲学是‘Simple is best’,通过 Appliance 方式为用户提供快速、简单、可 靠的数据服务。以网络为核心的革新设计获得业界迅速认同,是美国最成功的企业之一,经 过 5 年发展进入世界 500 强,其成功的数据管理和部署方案,通过消除管理复杂度,为用户 带来价值。 以系统的方式设计:使应用服务与数据管理分离,解决数据存储、移动、部署的问题。 Appliance 的设计原则:软件优化导致性能的提高远远超出硬件的提高,专门的目的导 致管理的简单和系统可用性的提高。 开放的标准:业界创新和技术的领导,集成 SAN 和 NAS 的优点。支持 SAN 方式的数据备 份,NAS 的数据共享。 先进的服务:产品的简单使得先进的服务体系,极大降低用户的维护成本,极高的服务 效率。
图 15-43 NetApp 解决方案
250
15.4.1 NetApp 存储的类型和发展 15.4.1.1 存储技术的演进 最早,系统结构是以主机或者服务器为中心的,传统的存储是直接连接计算机的,所以 又称为 DAS(Direct Attached Storage), 过去,IT 部门以服务器为中心,不同的应用由 不同的服务器完成,例如,用 IBM 运行 Database,用 HP 运行 Data warehouse,SUN 服务器 为 Email,在这种结构里存储直接连接服务器,由于过去网络速度的限制,这种结构是唯一 获得高性能的方式。这种方式的缺点是每台服务器需要自己的存储,形成了信息的分离的“服 务器孤岛”,复杂的管理,例如,信息共享、容量计划、配置、升级、troubleshooting、厂 商管理,导致最高的 TCO。 DAS 的管理工作极大地依赖服务器上的软件,用户面对多个管理点,例如备份工作需要
Server-Centric Architecture IBM IBM
FS
Database
Sun Sun
FS
HP HP
FS
Data Warehouse
UNIX Apps
UNIX Apps Clustered App
图 15-44 服务器集中型的存储 在每一台服务器上独立进行,容量资源无法共享,可用性较差。DAS 的采购成本最低,但潜 在成本,例如配套软件和管理成本最高。 存储的爆炸性增长使企业的存储管理面临巨大的挑战,出现了以存储为中心的结构,服 务器通过网络共享存储资源,通过集中化的管理使花费迅速下降。在这种结构中,服务器通 过 FC-AL 网络,连接到集中的存储池。 SAN 解决了 DAS 的一些难题,例如,实现存储集中,集中备份,容灾等,但是,通过 FC_AL
251
网络的方式连接存储系统,SAN 的方式,数据管理工作还是在服务器上进行,这是由于计算 机和存储间的接口是底层的块协议,存储系统无文件系统等数据管理工具,所以要求每一个 服务器都有一些存储管理功能,SAN 中的每一个存储服务器都要安装存储服务。 另外,SAN 的设备结构复杂,各个厂商标准不一致,带来的兼容问题,而且需要复杂的 软件才能使用,使得 SAN 的存储方案仍然具有很高的 TCO。
252
在以网络为中心的计算结构中,越来越多的集中存储管理选择了利用 IP 构建存储网络, 并且使存储网络具备更多智能,高级 NAS(Network Attached Storage)方案。网络附加存 储与 SAN 的主要区别有两点:服务器访问数据的协议和服务器访问传输介质不同。网络附加
Storage-Centric Architecture IBM
FS
Database
Sun
FS
HP
FS
Data Warehouse
UNIX Apps
UNIX Apps Clustered App
图 15-44 存储集中型结构
Network-Centric Architecture IBM Database
Sun Email
FS
HP Data Warehouse
UNIX Apps
UNIX Apps Clustered App
图 15-45 网络集中型结构 存 储 通 过 自 己 的 文 件 系 统 管 理 数 据 , 服 务 器 通 过 文 件 级 的 协 议 , 例 如 , NFS/UNIX, CIFS/Windows,将数据请求重定向到 NAS,服务器和 NAS 之间的连接是标准的 IP 网络。NAS 技术是计算机目前增长最快的应用之一。 NAS 不要求服务器额外安装软件,可以集中进行数据管理,NAS 将复杂的磁盘、通道、 管理软件等集成在一起,可以在网络上即插即用,最大的优点就是简单。作为存储系统,NAS 提供了比 SAN 更高的可用性,这是因为 SAN 本身无法提供完整的数据可用性,服务器、管理
253
软件的实效、升级等都会影响 SAN 上数据的可用性。随着网络速度的飞跃,通道优势已经从 FC-AL 转移到 IP,使得 NAS 在企业环境应用的优势越来越明显。
图 15-46 网络与存储 以太网与计算机内部磁盘通道相比,在速度上已经持平,而且网络带宽会越来越快。消 除了网络的传输瓶颈,使瓶颈转移到文件系统性能。由于以太网络的配置经验企业已经具备, 使得更易融入企业现有计算环境。
15.4.1.2
NAS 与 DAS(主机+磁盘阵列)的比较
NAS 与 DAS(主机+磁盘阵列)的基本差异可以通过下面的表格体现: 表 15-7 NAS 与 DAS 比较 比较项目 安装
NAS
DAS
安装简便快捷,即插即用。只需要 系统软件安装较为烦琐,初始化 10 分钟便可顺利独立安装成功。 RAID 及调试第三方软件一般需要 两天时间。
完 全 跨 平 台 文 件 共 享 , 支 持 不能提供跨平台文件共享功能,各 异构网络环境下文 Windows、NT、UNIX(Linux)等 系统平台下文件需分别存储。 件共享 操作系统。 操作系统
独立的优化存储操作系统,完全不受 无独立的存储操作系统,需相应服 服务器干预,有效释放带宽,可提高 务器或客户端支持,容易造成网络 网络整体性能。 瘫痪。
存储数据结构
集中式数据存储模式,将不同系统平 分散式数据存储模式。网络管理员 台下文件存储在一台 NAS 设备中, 需要耗费大量时间奔波到不同服 方便网络管理员集中管理大量的数 务器下分别管理各自的数据,维护
254
据,降低维护成本。
成本增加。
数据管理
管理简单,基于 Web 的 GUI 管理界 管理较复杂。需要第三方软件支 面使 NAS 设备的管理一目了然。 持。由于各系统平台文件系统不 同,增容时需对各自系统分别增加 数据存储设备及管理软件。
软件功能
自带支持多种协议的管理软件,功能 没有自身管理软件,需要针对现有 多样,支持日志文件系统,并一般集 系统情况另行购买。 成本地备份软件。
扩充性
在线增加设备,无需停顿网络,而且 增加硬盘后重新做 RAID 须宕机, 与已建立起的网络完全融合,充分保 会影响网络服务。 护用户原有投资。良好的扩充性完全 满足 24X7 不间断服务。
单台设备的价格高,但选择 NAS 后,前期单台设备的价格较便宜,但后 总 拥 有 成 本 以后的投入会很少,降低用户的后续 续成本会增加,总拥有成本升高。 (TCO) 成本,从而使总拥有成本降低。 集成本地备份软件,可实现无服务器 异地备份,备份过程麻烦。依靠双 备份。日志文件系统和检查点设计,服务器和相关软件实现双机容错 数据备份与灾难恢 以求全面保护数据,恢复数据准确及 功能,但两服务器同时发生故障, 复 时。双引擎设计理念,即使服务器发 用户就不能进行数据存储。 生故障,用户仍可进行数据存取。
15.4.1.3
NAS 与 SAN 的比较
NAS 与 SAN 都是在 DAS 的基础上发展起来的,是新型数据存储模式中的两个主要发展方
图 15-47
SAN Device
255
向。
图 15-48
SAN & NAS 共生运行
NAS 再定义: 网络附加存储设备(NAS)是一种专业的网络文件存储及文件备份设备,或称为网络直 联存储设备、网络磁盘阵列。一个 NAS 里面包括核心处理器,文件服务管理工具,一个或者 多个的硬盘驱动器用于数据的存储。 NAS 可以应用在任何的网络环境当中。主服务器和客 户端可以非常方便地在 NAS 上存取任意格式的文件,包括 SMB 格式(Windows) NFS 格式(Unix, Linux)和 CIFS 格式等等。NAS 系统可以根据服务器或者客户端计算机发出的指令完成对内
图 15-49 直连存储与 NAS 数据流比较,来源: IDC, 2000 在文件的管理。另外的特性包括:独立于操作平台,不同类的文件共享,交叉协议用户安全
256
性/许可性,浏览器界面的操作/管理,和不会中断网络的增加和移除服务器。 由图示说明(图 15-49) ,NAS 是在 RAID 的基础上增加了存储操作系统,而 SAN 是独立 出一个数据存储网络,网络内部的数据传输率很快,但操作系统仍停留在服务器端,用户不 是在直接访问 SAN 的网络,因此这就造成 SAN 在异构环境下不能实现文件共享。NAS 与 SAN 的数据存储可通过下面的图来表示: 以上两图说明:SAN 是只能独享的数据存储池,NAS 是共享与独享兼顾的数据存储池。 因 此 , NAS 与 SAN 的 关 系 也 可 以 表 述 为 : NAS 是 Network-attached , 而 SAN 是 Channel-attached。 目前存储设备供应商能提供的 SAN 技术还是很有限的,例如: 1)存储设备能实现跨平台的存储是很多厂商宣传 SAN 时重点强调的,但在现阶段多平 台的系统如 S/390、各种厂家的 UNIX 和 NT 的服务器都要联到 SAN 中的一个存储设备上, 并进行平台之间的数据共享、跨平台操作,实现起来还是有许多障碍的。现实中 SAN 往往只
图 15-50 NAS 和 SAN 比较,来源: IDC,2000 能作到 NT 与有限的 UNIX 平台间的互操作。而且 SAN 中不同操作系统间文件系统和数据格式 不同所带来的不兼容性,尚未得到很好地解决。所以应用可以读取到网上不论什么地方、什 么服务器、什么操作系统平台的数据,还只是人们的一个良好的愿望。 2)企业宣传 SAN 带来的另一大好处是管理简单方便,但存储的管理工具还不够完备, 还不能用统一的管理控制平台管理所有 SAN 中的设备及应用。 3)SAN 应能自动识别、配置新的存储设备,并根据使用情况平衡 SAN 内不同存储设备
257
间的负载,进行存储设备间的数据复制、备份。但这只是理论上能作到的。 4)大多数厂商在一个 SAN 中只能联一种厂家的 SAN 存储设备。 5)SAN 追求的是性能和速度,但 SAN 也是昂贵的代名词,对于大部分的企业用户,NAS 的应用要比 SAN 要多得多。 当要求给提供许多客户提供文件共享的接入时,NAS 一般来说是可选的方法。现在 NAS 设备在满足此种要求上有极大的功效。因为 NAS 系统是建立在现有的 LAN 和文件系统协议之 上的。同 SAN 相比,NAS 技术是相对成熟的。尽管有一些 SAN 文件共享解决方案存在,它们 一般是针对特定的要求,多个服务器要求高速的的接入通过私有的轻量级的协议来实现共享 数据。
15.4.1.4 用户需求举例 为了说明问题,这里给出一个相关的例子来解释 NAS 的数据存储解决方案:某研发中心 设计人员需要协同工作,频繁访问大量 2D 3D 图像,因此数据的共享特性决定必须采用高性 能存储系统。此外,客户还有一定量的 SQL 数据库,总数据容量要求为 2TB。 存储系统的特点要求如下: z
系统高可用性满足生产系统的高要求---7x24 小时的服务
z
确保业务连续性----企业级灾难恢复方案
z
集中存储-----数据中心,数据集中
z
数据安全-----企业的安全
z
业务高性能
z
系统易用性
z
Oracle,Exchange,SQL 等数据库服务器的支持
建成一个集中式开放式的存储,并且必须具有非常高的安全稳定性、高性能、高容量、 易扩充性、易维护性、成本低的高端存储架构。并且能够很好的支持用户的 SQL 数据库存储 需求以及数据库的备份应用需求,把数据库中的数据和文件系统中关键的文件按照备份策略
258
实现集中,高效的备份。当数据系统出现故障时,可以及时实施恢复,把数据丢失减少到最 低限度。
15.4.2 解决方案 根据客户的需求,存储与备份系统必须满足支撑多业务系统的能力,并充分考虑客户 日后业务的发展和数据的迅猛增长。因此可以采用 NetApp 统一存储平台 FAS 存储系统,在 同一台设备上既可提供基于文件(File)的 NAS 服务,同时又可提供基于磁盘块(Block)
图 15-51 NetApp 解决方案图示 SAN 的服务(FCP 和 iSCSI),集 SAN/NAS/iSCSI 等多种存储服务于一身。 如上图所示(图 15-51),NetApp FAS 系列存储服务器提供统一存储平台,既可以提供 SAN 的服务(FCP 和 iSCSI),同时又可以提供 NAS 服务。
15.4.2.1 方案概述 如图(图 15-52)所示,我们可以在总部配置一套 NetApp FAS 核心存储设备,同时提 供文件服务(NFS 和 CIFS)和 iSCSI 磁盘服务,主要服务器及存储设备均通过千兆链路接入 核心千兆交换机。核心业务如数据库服务器、email 和 OA 系统中的 Unix 系统可以通过 NFS 访问存储数据,Windows2000/2003 服务器则可通过 CIFS 或 iSCSI 方式访问存储。
259
FAS 系统中可以为每个卷保留 255 个快照备份(snapshot),客户可以根据业务的需要
图 15-52 NetApp 的存储和备份 定义 snapshot 的日程表,以保留不同时间点的系统数据。 离线备份包括两部分:各服务器操作系统和本地数据的备份和存储设备数据备份。因此 存储工程师可以配置一台独立的备份服务器作为备份控制台,FAS 上的数据可以利用 NDMP 通过直接与带库相连的 FC 或 SCSI 通道备到带库上,流量无需经过前端网络和服务器,即所 谓 LAN-Free 和 Server-Free 备份。服务器操作系统和本地数据则可通过备份服务器备到带 库。 对 于 远 程 的 分 公 司 可 以 选 用 较 低 端 的 FAS 作 为 本 地 存 储 , 利 用 NetApp 独 有 的 SnapMirror 可将数据远程备份到总部,实现异地容灾和数据共享。
15.4.2.2 产品选型 NetApp 的存储产品产品线如下(图 15-53): 所有 NetApp 产品均采用统一的 DataOntap 操作系统,FAS 系列从 2TB 到 64TB,性能满 足不同客户要求,可以根据不同容量和性能要求选择相应的型号。 本次方案的数据存储选用 Network Appliance (NetApp)公司性价比极高的 FILER FAS270 系列存储器服务器。FAS270 存储是 NetApp 公司一款企业级的存储产品,高性能和
260
图 15-53 NetApp 产品线 高可用性使得这一型设备可以满足高度密集的数据访问要求,根据第三方评测机构(SPEC) 的测试结果,此存储在 NAS 评测性能上可支持每秒并发 8000 个网络文件操作,而每一处理 的响应时间仅为 1.41 毫秒为业界响应最快的存储产品。NETAPP 在业界中提供独树一帜的 SAN/NAS/iSCSI 一体化解决方案,在同一 FAS270 硬件结构中可同时进行数据块(SAN 结构) 和网络文件(NAS 结构)的双重访问服务.而实现方式简便易行,只需针对不同应用灵活采用 网络接口或光纤接口分别连接网络交换机或光纤交换机与前端服务器配合即可实现。 SAN/NAS/iSCSI 一体化的特点为业界首创,且至今无其他厂商可以达到,此功能的实现大大 节省了用户的投资成本并提高了存储使用的效率。 FAS270 系统主要技术参数: 1、 容量,FAS270 存储支持 6TB 的磁盘容量,初始可配置裸容量 3TB,满足当今的数 据容量要求 2、 高效,在 1 个物理卷中最大可支持到 6TB 的数据量 3、 可用性,FAS270C 群集存储系统能达到 99.999%的可用性,随着应用和业务的需要 可以轻松扩展到 F900 系列的 Cluster 架构 4、 SAN 连接,通过直连或 Fiber Channel 的 Switch 组成一个高可用的 SAN 环境, 物理和应用上做到了完全的容余,没有任何的单点故障 5、 支持 iSCSI/NAS 访问,最大扩充至 4 个千兆网口,可以灵活进行网络配置;
261
6、 易于实施,FAS270 存储存储系统 30 分钟完成安装、配置; 7、 数据备份能够采用 NDMP 模式即 LAN-FREE 方式,磁带库直接连接在 FAS270 后面, 备份时通过 NDMP 协议数据直接从 Filer 到磁带库,无需经过网络,也不需要服务器的处理, 也可以连接到 SAN 的交换机上, 实现 Server-Free 的备份, 企业可以集中备份作业,速 度和效率大大提高。
15.4.2.3 文件与磁盘服务 由于目前阶段主要是 SQL 数据库和文件服务,考虑 NAS 和 iSCSI 两种实现方式。对 SQL 服务器,存储工程师可以采用 iSCSI 方式。如下图所示,NetApp FAS 可以作为 iSCSI 的目 标节点,提供 ISCSI LUN 服务,Windows 2000 /2003 服务器只需从微软下载一个 iSCSI 的 驱动程序(Initiator),即可将 Filer 上的 iSCSI LUN 连接到本地,作为本地硬盘一样使用。 也可在服务器上安装 iSCSI HBA 卡,用硬件 ASIC 芯片处理 iSCSI 协议,从而提高存储访问
图 15-54 NetApp 磁盘与文件服务 的性能,降低服务器的开销。 此外,为了满足 2D3D 图像文件服务的要求,FAS 还可作为一台 CIFS 文件服务器加入原 有 Windows2000 /2003 的域,其他域内用户访问 Filer 必须首先通过域内的 AD 认证, 对 Filer 上的共享管理和授权可以完全通过 Windows2000 / 2003 的 Active Directory
262
域用户和计算机管理来完成。
15.4.2.4 系统扩展 NetApp FAS 存储系统具有无可比拟的扩展性,允许在线扩盘,在线软件升级。FAS270 可以平滑扩展到 6TB,如果容量需求超出 6TB 的极限值,则必须升级到更高级别的产品。由 于 NetApp 所有产品线均采用相同的操作系统,硬件平台的升级同样简便,只需更换机头, 没有任何数据迁移工作,因此没有任何风险。
15.4.2.5 数据的备份/恢复,归档,和容灾 数据的备份/恢复、归档和容灾采用 NetApp 独有的的 Snapshot, SnapMirror 和
图 5-55 NetApp 系统备份示意图 SnapRestore™技术,大大提高了数据的可靠性,降低了数据维护的成本。Snapshot 可以在 1 秒钟内生成一个卷的系统快照,SnapRestore 将 TB 级的数据恢复时间缩短为分钟级,NetApp 内置的 SnapMirror 提供了一种简便高效的基于 IP 网络的远程容灾备份/恢复手段。更详细 的描述请参见 015.4.3.8 数据备份/恢复,归档,和容灾。 在线备份可以利用 NetApp 的 snapshot 技术为每个卷创建多达 255 个备份,随时可以 将系统恢复到快照的某时间点。 离线备份采用 NDMP 以 LAN-Free,Server-Free 的方式将 FAS 上的数据备到带库上。各
263
服务器的操作系统和本地数据则通过备份服务器备份。 为了实现数据的远程传送和容灾保护,可以利用 NetApp 的 SnapMirror 技术实现快速 远程备份。
15.4.2.6 系统管理--FilerView Network Appliance 提供远程管理开放存储网络的有力工具。每台 Filer 上都有 FilerView 工具,使 IT 管理员利用 Web browser 访问统一的、易用的图形界面 (GUI) , 进行日常的 filer 管理工作。 管理员可以随时随地,利用任何平台远程管理 NetApp filer,不会影响到关键业务的 运行。NetApp filer 安装完成后,管理员可以有效地监控状态,扩充容量,改变文件系统 的配置,等等。管理员可以扩充 volume 或在 NT Domain 中新建 Common Internet File System (CIFS) share,而不会影响到数据访问。 FilerView 作为 Filer 管理的常用工具,十分简便地引导管理员完成 Filer 和 Filer 的部件的安装和配置任务。不需要学习任何命令行或语言,只需 Web browser,管理员可以 通过轻松的点击屏幕完成任务。 如下图,左边的导航树可以随时指引、现实各项工作。安装、配置、监控、修改 Filer 和文件系统,得到加速、简化,而且不易出错。
图 5-56 FilteView 图示
264
安装和设置 Filer FilerView 将安装减少到只有简单的几步,为 Filer 从 Console 或者 DHCP 服务器分配 IP address 后,利用 Setup Wizard 迅速可以完成基本的配置。Setup Wizard 提供间接明 了的输入界面,并且指示 filer 在设置生效前动态地测试所选的参数。 配置 Data ONTAP 服务 FilerView 基于 Web 的方式避免了用户使用难记的 command-line 界面,从一个 GUI 界面里,管理员可以对所有的资源和服务管理、配置、生成报告。 文件系统. Disks, volumes, Qtrees, 和 quotas (NFS 和 CIFS) 数据保护. Snapshot™ 和 SnapMirror™ 工具集,Network Data Management Protocol (NDMP) 高可用性. 集群和互备软件 网络. 接口卡; HTTP, DNS (Domain Name Server), 和 NIS servers (Network Information System) 管理. 安全设置, AutoSupport 和 SecureAdmin™ 软件, SNMP 工具集,资源监控工 具。 生成文件系统。一台 filer 安装好, Data ONTAP 服务配置完成, FilerView 提供文 件系统生成和管理的帮助。FilerView 的功能可以简化下列任务: 生成 UNIX® 或 Microsoft® Windows 文件系统 设置每个文件系统的 quotas(配额,容量上限)和最大文件数量 显示生成的卷(volumes)和参数,按需要迅速调节 随时得到实时的统计数据,例如,卷使用百分比,可用容量,在用容量等。 管理和配置 Qtrees,卷内的逻辑文件系统。 定义、调整、监控用户、组、Qtrees 的配额;按照分配空间和文件数量限制使用 管理访问服务
265
管理员利用 FilerView 可以配置网络文件访问服务, NFS 和 CIFS 。UNIX 和 Windows 文件系统可以根据用户设置相应的访问: 配置服务 察看活动的 session, security, 和统计 statistics 审计 激活、报告、管理 share 或者文件系统的使用 控制和监视文件系统 重新启动、关闭 filer ,或者开启/关闭 Data ONTAP 服务。 FilerView 可以开启/关闭 NFS, CIFS, HTTP, 和其他的各种服务。用户定义的 SNMP trap 可以自动监视特定的参数。当某些情况发生或者参数超过某些阈值时自动生成消息通 知管理员。
15.4.3 NetApp 的技术特点与优势 NetApp 的存储产品 Filer 提供简单、快速、可靠、可扩展的数据管理解决方案,解决 数据共享、数据保护、数据管理等一系列问题。Filer 使用了高效率的 Data ONTAP 操作系 统,该系统是专为集成 Windows、UNIX 和 WEB 数据设计的,其中的 WAFL 文件系统与硬件紧 密结合,在无需复杂配置和人工调优的情况下,提供异常迅速的响应速度和很高的吞吐量。 在 Data ONTAP 系统集成了 Snapshot 快照功能,有效解决在线备份、复制、恢复、Point in Time 拷贝。NetApp 的 Filer 从小到大,容量和性能不同,而使用方式是一致的。 型号
容量
使用环境
FAS250
2TB
入门级
FAS270 FAS270C
6TB
部门级
FAS920 FAS920C
6TB
12TB
企业入门级
FAS940
FAS940C
12TB
24TB
企业级大型应用
FAS960
FAS960C
24TB
48TB
企业级数据中心大型应用
266
FAS980
FAS980C
32TB
64TB
企业级数据中心大型应用
数据在 Filer 上,服务器运行应用程序,通过 SAN/NAS/iSCSI 访问 Filer 上的数据, 使得数据与应用管理分离,从而提供更加快速、简单、可靠的数据访问。
15.4.3.1
Appliance 结构的存储系统的优点
Appliance 是指能很好完成特定功能的设备。网络上有许多常用的服务通过 Appliance 方式实现,不再通过软件加通用计算机的方式。例如,Cisco 公司和北电的专用的路由器几 乎取代了所有计算机包转发的服务,虽然早期的路由都是用计算机处理的。 Appliances 设备易于使用,更加可靠,而且具有比通用计算机更好的性价比,所以得 到广泛的使用。这些优点是由于 Appliance 只需要完成特定的任务,可以针对特定的功能进 行更强的优化,不会像通用计算机系统需要在很多(有时是矛盾的)要求下进行折衷。 Network Appliance 发明了 network storage appliance ( filer) ,Filer 上不运行 应用程序,只是提供 UNIX 或 Windows ®服务器所需要的数据。 Filer 作为 appliance 具有下列优点:易于管理、高性能和性价比、高数据和系统的 可用性、快速部署和升级能力,以及低 Total cost of storage ownership。 轻松管理 Filer 的可管理性是一方面是由于去除了操作系统与数据服务无关的部件,例如,打印、 图形、API 等;另一方面集成了许多必须的功能,不需要额外的软件工具,例如,Filer 的 文件系统可以在增加新磁盘时自动成长。这样就去除了划分磁盘驱动分区的复杂性,去处了 将分区分配给不同用户的复杂性。逻辑分区可以在线动态增减,微内核的升级不用 3 分钟就 可完成。 Filer 利用 SnapShot 简化了备份,Snapshot 是整个文件系统在线的只读拷贝。 Snapshots 可以在一天的任意一些时间自动或手动生成,用户无需系统管理员的帮助就可以 通过 NFS 或 CIFS 访问 SnapShot 来检查和恢复他们过去版本的数据,Filer 可以即时完成 Snapshot,而且除非文件删除或发生变化,否则不消耗额外磁盘空间。 虽然与传统方式相比 Filer 所需的管理工作已经微不足道,Filer 仍然提供多种方式的 管理工具。基于 Web 的图形界面 (FilerView®) 提供简单易用的全方位的 Filer 管理,
267
Windows 系统管理员利用他们熟悉的工具管理针对 Windows 的任务,Server Manager ,User Manager for Domains 等。对于喜欢命令行的人提供了类 UNIX 的命令,只需 50 条命令,这 些命令包括数据管理和网络管理,例如, ping, ifconfig, exportfs, 和 nfsstat, 还 有一些一般命令,date, uptime 和 passwd. 命令行界面可以通过 console 或者 TELNET. 访问。 多个 Filer 可以通过 NetApp 提供的 DataFabric Manager 统一管理,或利用 Openview 和 Tivoli 等网络管理工具利用 SNMP 进行管理。 性能/价格比 Filer 采用十分精巧的实时微内核,标准的硬件平台,以达到最佳的性价比。通过省略 不必要的模块达到高性能,例如,virtual memory, graphical window systems, 和一些 本地应用。软件优化相对于才用采用复杂高昂的硬件结构更为有效,复杂的结构会导致成本 增加和可靠性的减低。由于 Data ONTAP™软件从底层到数据服务的整体优化,Filer 具有很 高的性能和性价比。 系统和数据的高可靠性 Filer 的 Appliance 方式增加了数据的可用性。通用计算机系统需要支持太多不同的功 能和应用,所以没有可能测试所有的使用方式。而 Appliance 却可以进行彻底的测试,而且 简明的硬件结构减少了故障点。 Filer 利用 RAID (Redundant Array of Inexpensive Disks)技术保护数据,Filer 可 以两分钟内重新启动,进一步减少了宕机时间和系统升级和安装时间。 Filer 的重要的软件功能也增加了数据可用性, Snapshots 用于文件的即时恢复 SnapRestore™ 用于整个文件系统的即时恢复 SnapMirror® 用于数据复制和容灾 Appliance 方式与常规存储系统相比也极大减少了计划停机时间。例如,扩容,升级、 维护、备份等的停机时间。 快速安装和扩展
268
Filer 可以在 30 分钟内完成安装,而且一开始就是有 RAID 支持,避免系统管理员花费 几个小时建立 RAID group 和 volume。通过一条命令就可以把磁盘添加到任何文件系统中, 增加存储无需停机,而且对正常作业和性能没有任何影响,可以动态增加服务器,工作较传 统的 SAN 方式大为简单。
低总拥有成本 Appliance 结构使得存储的总运营成本最低,较低的初始采购成本,特别低的运营成 本,例如, 3 分钟的升级时间 1 条命令即时扩充文件系统 最少的 RAID 管理工作 无需通过磁带就可以恢复删除的文件,(Snapshots) 文件系统可以迅速恢复到以前的某个时间点 迅速地从应用程序失败的问题恢复
15.4.3.2
Filer 的系统结构
Filer 由控制器机头和磁盘子系统组成。机头通过光纤通道接口连接磁盘 SAN 子系统, 通过网络接口提供数据到应用服务器,机头的接口数量通过 PCI 插卡扩充。磁盘子系统由可 以堆叠的磁盘柜组成。 Filer 的基本软件结构如下图(图 5-57)所示,一些紧密耦合的处理模块处理 NFS, CIFS, 和 HTTP 请求。一个请求从下方的网络驱动开始,经过网络协议层和文件系统,向 上到达磁盘 I/O ,当文件系统完成了请求,它把请求送回网络。这些模块建立在一个简练 的 real-time 内核上,提供产生进程,内存分配,消息传递和中断等基本处理。 网络层支持 TCP/IP,与 UNIX 系统相比,为 Filer 的文件服务进行了优化,以增加 Filer 文件系统通讯的效率。 WAFL™, Filer 的文件系统,是专门为通过网络提供文件服务而设计的,而且与 Filer
269
的 RAID 配合设计,解决常规操作系统由于 RAID 而引起的性能问题。.
图 5-57
15.4.3.3
Filter 基本结构
WAFL - Write Anywhere File Layout
Filer 文件系统是经过重新设计的,而不采用常规文件系统,是为了达到三个主要目标: 文件系统应当和 RAID 高效协同 文件系统可以在新增磁盘时动态扩充 文件系统无需进行费时的一致性检验 而且,由此产生了支持 Snapshot 的要求。 在一些方面 WAFL 的磁盘格式与其他 UNIX 文件系统类似,例如, Berkeley Fast File System 和 IBM TransArc Episode file system。.其中: WAFL 是基于块的,使用连续的 4KB block WAFL 使用 inode 来描述文件 目录是特殊格式的文件 WAFL 利用文件保存元数据(meta-data),数据存储的控制信息,WAFL 的三个最重要的 元数据,分别是 inode file (包括所有的 inodes), 空闲磁盘块的位图文件,空闲 inode 的 位图文件。将元数据以文件方式组织,可以将元数据块写到磁盘的任何位置,这就是 WAFL
270
(任意写文件系统)名称的来源。由于没有特定数据写入特定磁盘区(例如 0 磁道)的要求, WAFL 可以完全控制其写操作的空间分配策略。Windows 和 UNIX 的 FFS 文件系统却不是这样 的。 WAFL 利用了这种灵活性优化 Filer 的 RAID 的写操作性能,在 IO 中 write 优化的文件 系统是十分重要的,因为写操作必须更新到磁盘或者 NVRAM(不掉电内存),而读可以在 UNIX/Window 用户和服务器的内存里进行 Cache 缓存。一般 UNIX 和 Windows 服务器的写操 作数通常有 5 到 10 倍的读操作数。
15.4.3.4
Snapshot 介绍
Snapshot 功能是 WAFL 的随意写带来的另一个功能。Snapshot ,也叫“快照”,是文件 系统在线的(随时可以访问),只读的“拷贝”, Snapshot 只需几秒钟就可以生成,如果文 件未被改变或删除就不占额外空间,或者说只有当文件系统的变化,变化部分会写入新的磁 盘空间,这时,快照消费额外空间。 快照可以用于在线备份,并且使用户可以自己进行文件恢复操作。简化了备份到磁带 的作业。由于快照是整个文件系统的只读的拷贝,是当前文件系统的具备自身一致性的备份, 所以无需关机或使当前文件系统离线,系统管理员可以将快照备份到磁带机上。
图 5-58 Snapshot 的生成 上图(a)示意了一个简化的文件系统,一个指针指向文件对应的磁盘块,(b)示意通 过指针结构的复制生成了快照,(c)示意当块 C 被修改,修改后的值存入新块,C’,当前 文件系统指向 C’,而快照仍保存了文件系统在拍快照时的状况。
271
WAFL 通过复制指针数据生成新的快照,由于该结构只有 128Byte 大小,而且没有数据 磁盘块需要复制或者移动, 除非当前文件系统的数据发生变化,快照步需要占用额外的磁 盘空间,而且快照可以即时生成。 Filer 可以为每个文件系统在线保留 255 个版本的快照。可以手动生成或删除快照,也 可以根据用户定义的日程自动生成和删除。Snapshot 占用的空间取决于用户数据变化的频 率,可以通过指定快照占用空间的大小。一般 17%的额外空间就可以保留整个文件系统的多 个版本的快照。 用户访问快照的方式 文件系统的每个目录都含有一个特殊的子目录,表示快照,通过对它的访问,用户可 以得到以前的数据。假如用户以外删除了名为 foo 的文件,希望从快照里把它恢复出来, 下面例子现实如何在 UNIX/NFS 下察看以前的文件并进行恢复。 % ls -lu
.Snapshot/*/foo
-rw-r--r-- 1 hitz 16787 Jun 16 15:00
.Snapshot/hourly.0/foo
-rw-r--r-- 1 hitz 16744 Jun 16 12:00
.Snapshot/hourly.1/foo
-rw-r--r-- 1 hitz 16811 Jun 16 10:00
.Snapshot/hourly.2/foo
三个 Snapshot 中含有文件 foo。 -u 选项通知 ls 命令列出 foo 文件的生成时间,也 就是拍快照的时间。如果要恢复,只需要将要恢复的文件 copy 回来到 foo 所在得目录就可 以了。 % cp .snapshot/hourly.0/foo . Snapshot 的目录是隐藏的只读目录,这样平常的操作不会受影响,而且不会被修改。
15.4.3.5 磁盘数据的一致性检查点和 NVRAM WAFL 最长每 10 秒就会生成一个内部快照,成为一致性检查点,所以在磁盘上会有一个 完全具有一致性的文件系统版本,当 filer 启动,WAFL 总是是用在磁盘上最新的检查点, 所以 Filer 避免了费时的文件系统校验,File system check, 使得即使意外掉电或者系统 故障时,也不必进行 file system check。 Filer 只需要 2 分钟的硬件自检就可以重新完成
272
启动。 Filer 使用电池支持的不掉电 RAM (NVRAM),避免丢失任何发生在检查点后的 NFS/CIFS 请求,正常关机时,Filer 关闭 NFS/CIFS 服务,将所有缓冲在 NVRAM 的请求刷新到磁盘后 关闭 NVRAM。 当 filer 故障后重启动,它将 replay 所有保存在 NVRAM 中的没到磁盘的 NFS/CIFS 请求。 使用 NVRAM 保存没有 commit 到磁盘的请求,与一些 UNIX 使用 NVRAM 作为 disk cache 有很大的区别。当在磁盘层面上使用 NVRAM ,其中可能包含影响一致性的重要数据,如果 NVRAM 出问题,文件系统会不一致,即使使用 fsck 也无法恢复。 WAFL 还使用 NVRAM 作为文件系统日志 journal, 而不是需要变化的磁盘块的缓存 (Disk Cache),所以 WAFL 极为有效地利用了 NVRAM 的空间。例如,一个请求,让文件系统生成一 个新文件,可以用几百个字节信息表明,而磁盘上却需要改变十几块的信息。由于 WAFL 使 用 NVRAM 保存操作命令日志,而不是这些命令的结果,NVRAM 可以保存几千个操作的日志
15.4.3.6
Filer 的 RAID
Filer 使用了一种 RAID 4 设计来保护数据避免受磁盘故障的破坏。然而与一般的 RAID 4 和 RAID 5 实现不同,一般的 RAID 实现结构没有考虑文件系统的结构和活动方式。 WAFL 的 RAID 4 实现,是与文件系统的设计紧密优化的。 通过将文件系统和 RAID 层 结合考虑, NetApp® RAID 的设计提供了所有 RAID 校验保护的好处,克服了常规的 RAID 5 带来的性能损失。另外, WAFL 的 RAID 4 设计不像 RAID 5 那样将数据和校验数据交织到 每个盘,整个系统可以在有 RAID 的时候仍然可以迅速简便地扩充。 通过 RAID 4, 如果一个磁盘有损坏,利用 RAID 组里的校验盘可以重新计算出损坏磁 盘上的数据,其 block 映射到磁盘上的新的位置。如果整个磁盘损坏,校验盘也可以保护 数据不丢失,当故障盘重新替换,所有内容通过校验盘自动重计算。 RAID 4 阵列使用一个磁盘专用于校验,其余用于数据。每个磁盘由 4KB 的 block 组成。 一个条带,stripe,由每个数据磁盘的一个 block 和校验盘的一个 block 组成。 最常用的 RAID 级别有 0,1,3,5,RAID0 是划分为条带,由于没有校验区,所以无容 余纠错能力。RAID1 是简单地镜像,所有数据复制在另一粒盘上,RAID 1 很安全,但是需
273
要两倍的磁盘容量。RAID 3 类似 RAID 4, 专门一个盘用于校验,但是 RAID 3 的条带太小, 一个读写操作就可能跨阵列内所有的磁盘, RAID 3 适合单个大文件很高的速率要求,例如 超级计算,和图像处理,但对于多用户应用产生的不相关的读写表现很差。而 RAID 4 改进 了这一点。 RAID 5 类似 RAID 4,但是在所有磁盘中循环安排数据区和校验区,第一个条带的校 验区在第一块盘,第二个条带的校验在第二个盘,等等。主要的优点是防止校验盘成为瓶颈。 缺点是在 RAID 5 array 中增加一个盘很不实际,扩容时需要添加一个新阵列。例如,如果 在 RAID 5 实施时每个阵列使用 7 个 disk,通常扩容时每次增加 7 个盘。 大多数用于 UNIX 和 Windows 环境的外设避免使用 RAID 4,因为使用通用的文件系统, 校验盘会成为瓶颈。另一方面,WAFL file system, 利用其随意写的布局写磁盘,使用 RAID 4 的磁盘却十分高效。 以 UNIX 的文件系统为例说明 WAFL 如何与通用的文件系统不同。通常的 UNIX 使用 FFS (the Berkeley Fast File System) ,该文件系统的设计针对一次写一个文件进行优化,所 以不同文件的块写到磁盘上很分散的位置。FFS 在阵列里写入 3 个不相关的文件时的块分 配的位置,每个数据盘写只有 2 次,而校验盘却要写 6 次。更致命的是,校验位的写十分分 散,导致很长的寻道时间。 这是由于 Berkeley FFS 不知道下层的 RAID 4 的布局,往往会生成在数据盘上分散的 磁盘写请求,导致校验盘过长的寻道时间。WAFL 的写方式被设计成最小化校验盘的寻道时 间。WAFL 总是把写相邻条带的 block,减少校验盘的寻道时间。WAFL 还尽可能地写同一条 带的多个块,进一步减少校验盘的流量。
15.4.3.7
Appliance 方式的优点
通过 Appliance 方式的设计,以网络为服务器提供数据,使得 NetApp 可以提供一种传 统的存储方式,以及基于 UNIX 和 NT 的系统无以比拟的存储管理 z
快速而简单的系统安装
z
快速的重启,即使在掉电或者系统故障停机后
z
通过增加磁盘在线扩充分区
274
z
快照提供简单的备份方式
z
简单的管理,50 条命令
这些特点,以及 Appliance 方式带来的高性能和高可用性,使得 Filer 成为十分易用 且性价比很高的产品。
15.4.3.8 数据备份/恢复,归档,和容灾 Snapshot 技术从根本上改变了对数据的备份/恢复、归档的操作方式。 备份数据可以保护由于用户误操作或者硬件故障造成数据丢失,对数据归档 (archiving data )可以生成完整的具有一致性的数据集合的副本,用于将数据恢复在线到 将来的某一个时间。备份保护免于故障,归档可以使业务暂停并恢复工作(可以在另外的地 点)。 从 backup 的数据中经常会只需恢复某个文件或某个目录,而不必进行整个文件系统的 恢复。 而归档 archive 往往要完整地进行恢复。容灾 Disaster recovery (DR) 和备份和 归档的特点类似,用于防止故障,更强调灾害、整个建筑灾难的情况。类似归档,DR 的数 据必须具有一致性,使作业可以在容灾点继续。 对数据备份可以包括对项目的归档,在另一地的项目归档可以用于从灾难恢复。 备份和归档最重要的问题是速度。当把大量数据备份到磁带或者其他的介质时,由于 数据量很大,备份本身就对系统产生了很大的工作负荷,使得系统性能下降,备份必须尽快 完成以避免对用户产生影响。所以备份工作一般在下班时间,对于 24x7 的环境,则没有下 班时间,“BACKUP WINDOW”越来越小。 对备份速度的主要限制是由于磁带机的速度,现代磁带机的速度一般每秒几兆字节, 几百 GB 的数据就需要多台高速磁带机并行处理。数据的一致性是另一个问题,为防止正在 备份的文件被修改,简单的备份程序会锁定文件处于不可写状态,而这只能通过 offline 或 single user mode 进行。 备份程序虽然试图解决在线备份的问题,但是用户仍然面临数据完整和一致性的问题, 备份无法保证是可以恢复的。 NetApp 的 Snapshot, SnapMirror 和 SnapRestore™提供给系统管理员有力的解决这
275
些问题的工具。 z
恢复 Restore
常常因为用户错误而进行恢复,用户经常意外删除、覆盖或其他方式修改了不该改的 文件,对于 DBA 和 SAPDBA,这样的机会特别容易发生。现代系统往往提供了很大的硬件保 护,时数据在硬件意外时不丢失。 Snapshot 为用户提供了自己恢复错误的能力,不需要依靠系统管理员从磁带定位,恢 复自己的文件。 z
在线备份 Live Backup
Snapshot 是当前文件系统的一个只读的、一致的副本,提供了巧妙的解决在线备份的 解决方案。在进行备份前,对文件系统拍快照,快照只需一两秒就完成。然后把最新的 Snapshot 目录中的数据备份。由于快照目录下的数据只读,永远不会被改变,所以可以保 证备份到磁带的数据的一致性,这样磁带备份的速度不会影响数据一致性,因为对当前文件 系统的改变不会影响到快照的数据。用户当前的文件系统总是可以读写的,用户的作业不受 影响,而备份设备看到在备份前即时做的快照,它稳定不变。 这种随时(在线)生成具有数据一致性的、可以恢复的档案的能力,具有无比重要的价 值。 z
数据库备份 Database Backup
Snapshot 提 供 了 特 别 方 便 的 方 法 对 关 系 型 数 据 库 文 件 ( 包 括 DBM 文 件 、 email/messaging 数据库,如 Exchange 和 Notes,动态 WEB 页面内容数据库,不仅是传统的 RDBM,像 Oracle, Sybase, SQLServer 等)。 传统的方式在备份前保证数据一致性的方法是关闭控制数据库的应用程序。备份过程 往往包括,关闭应用程序,进行备份,重启应用程序,停机时间完全取决于备份的速度,从 几分钟到几个小时。进行热备份需要将应用程序、数据库转换为热后备模式,备份完成后再 转换回正常运行模式,热后备模式影响系统的性能,需要尽量缩短热后备时间。 利用 Snapshot 可以把停机时间缩短到几秒种----生成 Snapshot 的时间。操作方式: 停应用,拍照,重起应用,把在 Snapshot 目录里的内容倒到备份介质,这种备份的数据/ 归档具有数据一致性的保证,确保应用程序可以立刻使用。
276
同样重要的一点,这些快照可以保存在线存在很长时间,万一数据库毁坏就可以立刻 用来恢复,极大地减少了恢复时间。 z
数据迁移和复制 Backup to Disk
磁带设备的速度比较慢,系统的吞吐量执行 tar/dump/pkzip 类型的工具只有几百 KB/s,硬盘相对快很多,所以在数据中心数据临时 dump 到磁盘设备,然后再下带。随着磁 盘的降价和性能提高,这种方法越来越流行。 Network Appliance 的 VolCopy 功能提供给用户将数据高速整卷迁移到另一台 Filer 的方法,速度达到~45 GB/hour。使用 VolCopy,用户可以在另一台机器 FILER 上生成一个 完全一样的文件系统,包括原数据系统的所有 Snapshot。复制时目标系统不可用,一旦复 制完成目标系统的数据就可在线。VolCopy 提供了一种快速将数据从一个卷迁移到新的位置 的方法,可用于升级到新的系统,或者生成一个副本,副本的数据进行磁带备份而不管源数 据正在发生变化,或者用于容灾。 z
自动文件系统复制 SnapMirror
Data ONTAP(Filer 的操作系统)利用 WAFL Snapshot 功能提供了自动的文件系统级 的复制功能:SnapMirror。通过 SnapMirror 技术,一个源 filer 可以将一个或多个文件系 统复制到伙伴 Filer,使伙伴 Filer 上的文件系统与源 Filer 的自动生成的 Snapshot 同步。 伙伴 Filer 可以分布在任何地方,可以在同一大楼或者地球的另一边,只要源和目的之间有 网络连接和复之数据需要的带宽。 SnapMirror 在 WAFL 里的对 block 进行操作,效率很高。文件系统是由磁盘中的块组 成的,Snapshot 文件系统一个固化的版本,表示文件系统拍照时的状态。 WAFL 利用内部的块映射表(block map file)记录了哪些块属于哪些不同的 Snapshot, block map file 记录每个 BLOCK 是否属于当前文件系统或是某个快照。如下表,BLOCK 28854 的数据在 Active File System 和 Snapshot 1 中,而 snapshot2,3,…20 都没有用这块。 WAFL block map file 使得 SnapMirror 很容易确定两个 Snapshot 的数据变化(增量), 例如上表,block 28856 不在 Snapshot 1,却在 Snapshot 2。.假如 Snapshot 2 在 Snapshot 1 之后拍的, block 28856 一定 Snapshot 1 拍完后假如到 Snapshot2 的,而 block 28854 在 Snapshot 1 里,但 Snapshot 2 里没有,所以是 Snapshot 1 拍完后删除的。通过比较两
277
个快照的不同, SnapMirror 可以十分有效地顺序将变化数据复制到另一台设备。 SnapMirror 复制开始时,目标 Filer 安排源 Filer 拍快照"Snap A",建立与源 Filer 的 TCP 连接,开始传输"Snap A" 文件系统的块。 数据传输完成后,目的 Filer 上的数据十完整的、具有一致性保证的,而且完全等于 "Snap A" 文件系统,包括与 SnapMirror 无关的“Snap A”快照时的 SnapShot 的信息。目 标 Filer 上的数据可以被用户只读访问。当“Snap A”传输时,源 Filer 上的数据也正在发 生变化,然而 WAFL 的 copy-on-write 策略保证了所有变化数据在传输期间写入到新的 “Snap A”以外的 block。 为了保证目标 Filer 自动复制源 Filer,变化的块也要传往目标 Filer。目标 filer 安 排源 filer 进行另一个 Snapshot,"Snap B",然后建立另一条 TCP 连接传输两次快照期间 变化的数据。 当目标 Filer 接受完成 SnapB,其数据是具有数据一致性且等于源 Filer 的 SnapB,SnapA 会被删除,新一轮传输又再启动。. SnapMirror 通 过 在 目 标 Filer 上 的 一 个 简 单 的 配 置 文 件 控 制 , snapmirror.conf,
设定 Snapshot 的发生间隔和数据传输的时间。
/etc/
该文件包含下列格
式的命令行: srcfiler:srcvol
dstfiler:dstvol
schedule
srcfiler, srcvol, dstfiler 和 dstvol 分别代表 source filer, source volume, destination filer, 和 destination volume 的名称。管理员利用后面的变量值控制复制 传输的特性。例如 throttle value,阈值,限制 Filer 间的数据传输最高带宽 kilobytes per second。 Schedule 参数由 4 个独立变量组成, minutes, hours, days of the month, 和 days of the week,表示传输发生的时间。 例如, /etc/snapmirror.conf 如下的一项: sf:sv
df:dv 2000
30 8,12,16,20 * 1,2,3,4,5
将使得目标 volume 在 8:30am, 12:30pm, 4:30pm 和 8:30pm, 每周一到周五,进行 同步,阈值是 2000 KB/S 或 2 Megabytes/Second,两台 filer 间的最大数据传输带宽。*
278
表示所有的月。 srcfiler:srcvol dstfiler:dstvol - * * * * 指示目标卷尽快与源卷同步,-表示以网络允许的最大带宽传输。 在源 Filer 上的配置文件/etc/snapmirror ,控制只有指定的 Filer 才可以进行复制。 提供复制的安全性。 z
恢复整个文件系统 SnapRestore
在一些情况下需要完整地恢复以前保存的数据,当发现数据库 corruption 时,就需要 这样的恢复。在 NetApp filer 上,Snapshot 使得一个 volume (或称 file system) 的数据 冻结在某个时间点上, SnapRestore 使文件系统回到以前的某个 Snapshot 的状态。 在 NetApp 这种独特的功能以前,完整恢复文件系统的两种方法: 从磁带进行完整的 restore 从 Snapshot 把所有内容拷贝回来 这些方法比简单地进行卷的回复,需要更多的时间和工作, SnapRestore 不需要拷贝 任何文件,它把文件系统回复到以前的状态,只需要几秒钟的时间。 当需要回复的数据不多,可以很快直接从 Snapshot 里拷贝回来。而在很多情况下,这 个功能十分有用。 数据库管理员面临的重要问题是备份需要的时间,特别是恢复需要的时间,在一些宕 机的情况,恢复毁损的数据库需要几天的时间,如果数据库保存在 NetApp 的 Filer 上,就 可以极大减少,甚至消除宕机的时间。 数据库程序可以有计划地周期地 stop 或 hot backup,Filer 拍快照,只需要几秒钟的 时间,数据库就可以恢复正常工作,快照里保存了数据库的具有一致性的内容,进行磁带备 份或者利用 Snapmirror 传到容灾点。 快照完成后可以立刻用一些工具进行检查,如果一切正常,系统管理员可以这些数据 可以备份或复制,而且回复后可以正常工作。许多时候,系统管理员会发现备份时数据库数 据已经毁损,在恢复时才发现。Filer 减少了这些风险。 管理员可以不断进行在线备份,当问题发生时,Filer 上有问题发生前一个小时内的版
279
本,从这个版本进行回复。这要比从磁带未验证的数据回复快速许多。 对数据库的 LOG 和 DATA 分别进行 Snap 操作,当问题发生时: 如果数据库仍在运行,停止数据库 选择以前的一个包含正确数据库数据的 Snapshot 所有在选定的快照以后生成的 archive log file 拷贝到另一个卷临时存放,防止被 SnapRestore“回复”这些内容 用 SnapRestore 回复卷的内容 将 archive log 复制回到卷 数据库重启,根据 LOG 进行 roll forward 以上操作可以在 5 分钟内恢复正常工作。参见 NetApp white paper "Oracle8 for UNIX: Backup and Recovery Using a NetApp Filer"。 SnapRestore 在测试环境也提供很大的效率。在协同软件开发过程里,通常要建立基本 的 测 试 环 境, 运 行 测 试 , 检 验 结 果, 经 常 要 重新 生 成 测 试环 境, 进 一 步 测 试 。 利用 SnapRestore,一旦基本测试环境生成,无论其多大多复杂,都可以在 3 分钟内重建。 z
磁带备份
利用 Dump 和 Restore 进行本地磁带备份 Network Appliance Filer 可以通过本地执行 dump 和 restore 命令将数据备份到磁 带机, Dump 和 restore 内含在 Data ONTAP 中, 可以被基于 NDMP 的备份软件访问,对企 业范围的多台 filer 进行备份。 Dump 以 archival 格式将数据写入备份介质,可以通过 Filer 进行 restore,或者通过 Sun® Solaris® 用 ufsrestore 恢复。Dump 可以对 volume, quota tree (qtree), 或任意 directory 进行备份。Restore 可以恢复 volume, qtree, directory, 或单个 file。 第三方的基于 NDMP 的 Backup-and-Restore 解决方案 NDMP (http://www.ndmp.org/) 是用于集中控制企业范围数据管理的协议,使得备份 软件厂商不需要将客户端代码移植到 Network Appliance filer 上就可以提供对其支持,一 个支持 NDMP 的备份方案将备份/恢复的控制信息从数据流和备份介质分离,通过调用 Data
280
ONTAP 软件的 dump 和 restore 控制数据从 Filer 备份和数据恢复到 filer。 基于 NDMP 的方案提供 LAN-FREE 和 ServerFREE 的备份方式,这些产品可以控制 filer 把数据备份到 Filer 本地磁带机,不需要把数据送到网络上。 典型的 ServerFree 的备份方式:如下图
图 5-59 Server Free 备份图示 典型的 LAN-Free 备份方式:如下图
图 5-60 LAN-Free 备份方式 Network Appliance 与 Legato 合作提出了 NDMP。现在 NDMP 已经成为工业标准,主 要的备份软件商有:
281
•
BakBone® NetVault® (http://www.bakbone.com/)
•
CommVault® Galaxy (http://www.commvault.com/)
•
Computer Associates™ BrightStor™ Enterprise Backup (http://www.ca.com/)
•
Legato® NetWorker® (http://www.legato.com/)
•
Atempo® Time Navigator (http://www.atempo.com/)
•
SyncSort® Backup Express (http://www.syncsort.com/)
•
Veritas® NetBackup?(http://www.veritas.com/)
•
Workstation Solutions Quick Restore (http://www.worksta.com/)
NDMP 协议支持下面的 backup 设置: z
本地将数据备份到 Filer 直接连接的磁带机
z
从网络将数据备份到另一台 filer 连接的磁带机
z
从网络将 UNIX 或 Windows NT server 的数据备份到 filer 连接的磁带设备
z
从网络将 NetApp filer 的数据备份到 UNIX 或 Windows NT 备份服务器连接的磁带 设备。
Fibre Channel 和 Gigabit Ethernet Tape SAN 方案 Network Appliance 提供基于 Fibre Channel Fabric Tape SAN 备份方案和 Gigabit Ethernet Tape SAN 备份方案。都能提供下面的优点。 z
带库资源的共享
z
扩展集中磁带备份的距离
z
将备份对网络和服务器的影响减至最低
z
磁带机 hot-swapping
z
动态改变磁带机的配置而无需 Filer 关机
下图(图 5-61)是 Gigabit Ethernet Tape SAN 的配置
. Gigabit Ethernet Tape SAN 方式使得多台 Network Appliance filer 同时通过千 兆网将数据传输到支持 NDMP 的一台或多台设备。Filer 共享带库,全部采用经 过验证的以太网部件。. 282
.与支持 NDMP 的第三方软件配合,利用 dynamic drive sharing 技术,Fibre Channel(图 5-62)和 Gigabit Ethernet tape SAN 方案使用户可以动态地分配在一个大型磁带库里的驱动 器给需要进行备份和恢复操作的 filer。因而避免了为每台 filer 配备昂贵的磁带机。
图 5-61 Gigabit Ethernet Tape SAN
图 5-62 Fibre Channel Tape SAN 利用这些方案,企业可以在不影响 Filer 的运行的情况下更换、升级磁带机,磁带驱 动器不需要停机就可以动态添加和移除,减少了停机时间。
283
其它的磁带备份方法: 用户可以利用第三方的基于 Windows NT 的 Backup-and-Recovery 方案,例如, Veritas (formerly Seagate Software) Backup Exec Computer Associates ARCserve Legato Systems NetWorker 对 Filer 进行备份,详细可参阅白皮书 "How to Integrate a Network Appliance Filer into the Windows NT Backup Model" 用户也可以利用 NFS Mounts 和 CIFS Shares 将所需要备份的数据连接到备份服务 器,利用一般的备份程序将内容下带。 Filer 还支持 RMT 协议,这个工业标准协议允许 Filer 通过网络将数据备份到连接灾其 他主机上的磁带设备,远程主机也需要支持 RMT 协议。多台 Filer 之间可以通过该协议利 用一台连接在任何一个 Filer 上的磁带机进行备份。
15.4.3.9 高可用性 文件系统专用设备 Filer 除了软硬件本身具有 99.99%的高可靠性以外,为了消除一些单 点故障(如系统主板出错,等),在以低成本、低性能开销、不增加系统复杂度的前提下, 将两台独立的 Filer 耦合起来,实现一旦一台 Filer 因故障而停止运行并且不能重新启动,另 一台 Filer 立即就可接管这一台 Filer 的全部工作,保证系统正常运行。 两台 Filer 都与磁盘阵列相连,并处于同一网中,两台 Filer 之间用高速、冗余的光纤 互连。光纤通道(FC-AL)的硬盘有两个端口,分别与两台 Filer 相连。 每个 Filer 有自己主管的一组硬盘。正常运行时,两台 Filer 各自独立工作,硬盘、风 扇或电源出错不影响另一台 Filer 的工作。同样,若一台 Filer 的软件出错,这也仅仅引起这 台 Filer 重新启动,不会影响到另一台 Filer 的工作。如果一台 Filer 发生灾难性故障,即不 能重新启动,则另一台 Filer 会自动接管原属于有故障的 Filer 的硬盘、文件系统、同时将其 IP 地址也归为己有。 在整个接管过程中,客户端仅简单地感觉到系统像是在重新启动。所有在系统本身重
284
起过程中,能够保留的状态,另一台 Filer 也同样通过接管保留。当然,如果一台 Filer 在其 重新启动过程中丢失一些状态,如 CIFS 锁(LOCK)状态和文件状态等,则在接管后,另 一台 Filer 也不能保留这些状态。 一旦有故障的 Filer 恢复正常运行后,它不会自动地再接管自己的文件系统,这需要系 统管理员干预才能实现。系统管理员也可强制一台 Filer 交出自己的文件系统,从而可实行 计划中的 Filer 和硬盘维护工作。 Cluster Failover 主要依靠以下两个方面工作: 其一是 WAFL 的特性,特别是 WAFL 文件系统的盘上状态(ON-DISK STATE)永远是 一致的。这个盘上状态从一个一致点移动到另一个一致点的过程为一个交易,也就是说,要 么完成一个状态迁移,要么无状态迁移,因此它永远保持一致。另外,WAFL 在日志文件中 记录所有被服务过的、能够转移到非易先性 RAM(NVRAM)中的客户请求。日志文件中 那些已被转移到硬盘上的客户请求只有在一个盘上状态迁移完成后,才被丢弃。Filer 通常 利用这些特征将盘上数据从故障中恢复。当 Filer 重新启动时,它只是简单地重新执行在最 近(一致性)盘上状态未反映的 NVRAM 中的客户请求。 NVRAM 在 CLUSTER 中的镜像 其次是互连的特性,特别是互连具有远程内存存取能力(有时也称作非一致性内存存 取,或者简称 NUMA)。当一个客户请求到来时,Filer 将其记录在它本地的 NVRAM 中。 在 Cluster 的配置中,Filer 利用远程内存存取特性将日志文件中的记录项拷贝到另一台 Filer 的 NVRAM 中。这个技术的一个突出优点是发送方发送的拷贝极快,几乎不影响到接收方 的操作(如,没有包处理过程)。同样,另一台 Filer 也会将自己的 NVRAM 中的日志记录 项拷贝到这台 Filer 的 NURAM 中。 当一台 Filer 不能从互连的光纤通道、网络或硬盘上探测到另一台 Filer 的心跳 (HEARTBEAT)或 I/O 活动,他即认为这台 Filer 已出故障,接管过程开始。主要是接管出 故障的 Filer 的 IP 和 MAC 地址、文件系统和硬盘,以及后台服务器进程(daemon),并将其 使用的 NVRAM 中的日志记录项回现。这个技术与 Filer 重新启动时所使用到的技术类似。 接管后,正常工作的 Filer 中的每个后台服务器进程(daemon)具有两个标识符,一个用于本 地 Filer,另一个用于另一台 Filer。
285
15.5 磁带库产品介绍 15.5.1
STK L700E 自动磁带库产品介绍
15.5.1.1 概述 StorageTek L700e 自动磁带库是 StorageTek 公司全新的 L-系列自动磁带库产品的一 员。L700e 自动磁带库是世界上最早能够本机支持 2GB 光纤通道的自动磁带库产品。 采用先进的高性能和高可靠性的机器人、视觉识别、磁带机和光纤通道技术,使其具备 无与伦比的高性能,可以确保客户可靠、快速地访问关键业务数据。 L700e 自动磁带库采用的是 StorageTek 发明的独特的圆柱型库体结构,它不但增加了 单位面积存储磁带的数量,而且可以减少机械手的移动距离,从而提高了自动磁带库的总体 性能。L700e 所有关键部件均为冗余设计并可现场热更换,从而保证了整个磁带库系统的可 靠性。 L700e 自动磁带库同时混合支持多种磁带机和磁带介质,可以满足用户对性能和容量的 不同要求。全新的 L700e 自动磁带库提供 PTP(磁带传递口),可以将 2 个 L700e 磁带库 的库体互连在一起,有效地将存储容量增加 2 倍。L700e 灵活的扩充性能,使客户可以随 着业务的增长轻松增加所需的存储容量和处理能力。 L700e 配备了完善的管理软件和微码,不但可以支持 UNIX、NT 和 AS/400 等环境 下的应用,而且可以完全溶入系统管理的框架中。利用内置的 WEB 服务器和 SNMP 代理 模块可以将 L700e 自动磁带库的管理延伸到企业网络所能到达的任何角落。 L700E 自动磁带库由如下主要部件组成: •机器人系统 -- 机械手控制器、机械手、智能摄像视觉识别系统 •磁带存储槽
286
•磁带存取口(CAP) •磁带机驱动器机架 •磁带机驱动器 •控制管理软件等组成。
15.5.1.2 机器人系统 L700e 自动磁带库采用 StorageTek 第 6 代高性能机器人系统,专利的高速旋转移动 机械手系统,每小时可以装/卸磁带 900 次,即 450 交换/小时。这意味着,对服务器的任 何装载磁带请求,都可以在 4 秒钟之内完成。 L700e 采用基于摄像机的智能视觉系统,这是 StorageTek 公司的专利技术。该视觉 系统还配备多重冗余 LED 阵列照明光源,提供照明的冗余。这种视觉系统不但比传统的激 光条形码阅读器的速度快,而且具备更高的智能。它可以快速、准确地识别磁带带标和磁带 库配置。配合近距离精准传感器,该视觉系统还可以自动地对机械手进行校准,并迅速地识 别放置在存储槽中不同类型的磁带,其中包括: 贴有带标的磁带(各种类型) 无带标的磁带(各种类型) 空的存储槽 StorageTek 独特的 4D 机械手和视觉系统使 L700e 可以同时读/写所用的系统应用, 多种应用共享 L700e 提供的大数据存储池。智能的视觉系统使 L700e 的机械手具备了高智 能的介质自适应技术(AMT),使其可以处理各种类型磁带介质的装/卸带操作,永远不必变 换磁带槽、软件或机械手。这种高智能的视觉系统可以极大地提高机器人系统的性能,特别 是可以大大地缩短对存放在自动磁带库内的磁带进行清点核对的时间: 核对 216 盘磁带仅为 2 分钟 核对 384 盘磁带仅为 3 分钟 核对 678 盘磁带仅为 5 分钟
287
这种能力可以使 L700e 自动磁带库大大缩短灾难恢复的时间。 L700e 的机器人系统的机械部件少,可靠性高,并具备免维护能力。其平均无故障交换 次数(MEBF) 高达 200 万次以上。L700e 的机械手通常处于闭合状态,在异常掉电情况下, 机械手能牢牢抓住磁带,不会使磁带脱落造成磁带损坏。
15.5.1.3 容量配置 单个 L700e 具有三种不同存储容量的配置:216、384 和 678 个磁带存储槽的配置。 而 2 个 L700e 通过 PTP 互连时,磁带存储槽可达到 1344 个、磁带机总数多达 40 个、最 大非压缩存储容量 268TB、最大非压缩吞吐量每小时 4320 GB。利用 StorageTek 公司的 ACSLS 自动磁带库服务器软件,可以将多台自动磁带库统一管理起来。这样可以做到对存 储容量和性能的无限升级。用户可以根据自己的应用对容量的需要,选择相应配置。如果用 户的应用在最开始时对存储容量要求较少,用户可先选择较小的配置;随着应用存储容量的 增加,用户可以在现场对 L700e 磁带库进行扩充直到其最大配置。 L700e 自动磁带库采用专利设计的、非常完善的磁带存储槽,它可以适合存放多种不 同类型的盒式磁带。该存储槽具备一定的倾斜角度,使存放在其中的磁带不会滑落。即使是 在振动的环境中(如:在地震多发地带、海上石油勘探船上),也能保证磁带不会震落,确保 存储在磁带库中数据的安全。
15.5.1.4 磁带机和磁带介质混装 L700e 自动磁带库可以支持一台至最多 40 台不同类型的磁带机,包括: DLT7000、 DLT8000、SuperDLT、T9840、T9940 和 LTO Ultrium。 L700e 还可以支持多种磁带机及介质的混合配置。各种类型的磁带介质可以任意存放 在磁带库中的任何磁带存储槽中,多种磁带机可以同时混装在 L700e 自动磁带库中。所有 磁带机都可以带电热插拔。更换故障驱动器和增加驱动器配置都不会中断 L700e 磁带库的 正常运行。用户可以根据其应用的需求特性来选择相应的磁带机技术。如: 需要保障数据的快速存取性能的应用,可以配置 T9840 磁带机。如:HSM (分级存储 管理)、大型数据仓库。
288
需要存储的数据量很大而且要保证存储的高性能,则可以选择 T9940 或 LTO 磁带 机。如:大量数据备份和恢复、数字化媒体管理、视频点播。 需要将大量数据存档保留但不要求高传输速率的,则可选择 DLT7000 或 DLT8000 磁 带机。 如果用户有多种类型的应用,可以根据应用对容量和性能不同要求来选择多种磁带机的 混合配置。 L700e 具备的这种灵活性,可以满足用户不同类型应用对磁带机性能和容量的不同要 求。同时也做到了既能承袭已有的技术产品又能支持未来新的磁带机技术产品,最大限度地 保护了用户的投资。 在 L700e 的磁带机机柜的上方留有外设安放空间,可以安置 SCSI 交换机、光纤通道 桥接器、光纤通道 HUB、光纤通道交换机和 UPS 等设备。便于机房的空间管理。
15.5.1.5 盒式磁带存取口 (CAP) 盒式磁带是通过盒式磁带存取口 (CAP) 被送入或退出带库的。L700e 可以配置 1 或 2 个 CAP。每个 CAP 可同时处理 20 盘磁带的入库和出库。当盒式磁带被送入带库时, 机械手上的智能视觉系统将直接读取贴在磁带背面上的条型码,以便快速分配存储槽并记忆 该磁带在带库中存放的位置。如果没有条型码贴在盒式磁带上,通常自动磁带库控制软件会 指示机械手将该磁带装入某个磁带机内,以读取其内部带标,并利用带标来记忆该磁带在自 动磁带库中存放的位置。 通过 CAP 进行磁带的入库和出库工作,不中断自动磁带库的正常操作。为了方便操作, L700e 的 CAP 配备了 5 盘磁带的磁带匣。
15.5.1.6 独立的平台 支持各种计算平台和各种系统管理环境 L700e 自动磁带库支持所有主流的 UNIX 和 NT 平台。ACSLS 和 Library Manager 磁 带库管理软件支持 L700e 的双库体互连,以及运行不同备份软件的不同主机系统。另外,
289
互连的 2 个磁带库配备独立的磁带库控制和数据路径,确保系统的可用性、扩展性、和连 接性。 L700e 可以支持许多第三方的存储管理软件,如: CA Unicenter TNG ASO、ARCserveIT、Alexandria IBM SMS (HSM, RMM) Legato NetWorker Veritas NetBackup、Backup Exec LXI MMS HelpSystem Robot/Save 利用 StorageTek 公司的 ACSLS 自动磁带库管理软件,L700e 磁带库可以被各种平 台同时共享。L700e 还可以被多种系统管理框架软件来统一管理。如:IBM Tivoli、HP OpenView 和 CA Uniceter TNG。 完善的远程监控和管理功能 做为选件,StorageTek L700e 可以配备内置 Web 服务器 – Library Manager 磁带库 管理软件。与其它基于主机接口的产品不同,L700e 不需要任何外部服务器,它可以直接 通过以太网连接到任何 TCP/IP 网络上。L700e 内置的 Web 服务器,使用户通过 Netscape 或 Internet Explorer 浏览器,直接访问磁带库的相关信息。包括: z
存储槽和磁带机活动情况统计信息
z
磁带机和磁带库的配置
z
故障报告
StorageTek L700e 的固件提供完全的远程管理功能,包括对磁带机配置、磁带库配置、 微码下载、和远程复位等操作。系统管理员将会非常喜欢嵌入在 L700e 内的 SNMP 代理 模块,它使得 L700e 可以直接纳入用户的系统管理框架中,如 IBM Tivoli、OpenView 和 UnicenterTNG。这个功能使用户可以从系统管理控制台或异地全面地管理 L700e 自动磁 带库,包括对带库运行的监控和异常提示等。即使在系统管理框架软件失效的情况下,用户
290
仍然可以利用 web 浏览器来监控磁带库的运行情况。自动磁带库会自动收集性能统计信息, 包括: z
机械手对磁带的取/放操作统计信息
z
完成的作业数量
z
清洁带可用次数
z
记录各种错误
用户可以利用这些统计信息来分析和预测 L700e 自动磁带库的运行情况、调整自动磁 带库和网络的性能、或更换清洁磁带等。 高可用性、高可靠性和可服务性 L700e 配备了冗余的电源和冷却风扇系统,固件包含了故障监控能力。冗余的电源平 时可以均衡负载,当一个电源模块或风扇模块失效时,另一个仍可以保障带库正常工作。故 障部件可以在带电工作状态下被更换,而不会中断磁带库的运行。L700e 内的磁带机也可 以被热更换。当某个模块出现故障时,L700e 磁带库会自动发出警告。警告的方式可以是 电子邮件和寻呼机等多重方式,这样可以及时地将故障的位置和类型通知给维护人员,使设 备能够得到及时维修。 StorageTek L700e 支持 TapeAlert 协议,它定义了标准的故障通知格式。L700e 的 固件监视驱动器和磁带库的性能统计信息,以便预报可能发生的故障。当磁带机和磁带库的 性能参数低于下限时,L700e 磁带库会自动发出警告。 StorageTek L700e 不需要定期维护,不需要润滑和调整皮带的松紧。它采用高度集成 化的电路设计,减少了插板,从而提高了可靠性。
z
L700E 磁带库技术指标
L700E 磁带库技术指标如下表所列:
表 5磁带存储槽数量
L700E 磁带库功能数据 216,384,678(单库体), 双库体(L700E):1344 外加 12 个诊断和清洁磁带槽
291
驱动数量
多达 20 个 DLT 8000/SDLT 或 LTO 驱动器 或多达 12 个 9840 驱动器,或者 LTO 与 9840 混合
库容量(678 个槽)
非压缩 压缩
DLT8000(磁带容量 40GB)
27.1TB 54.2TB(2:1)
LTO Gen1(磁带容量 100GB)
67.8TB 135.6TB(2:1)
LTO Gen2(磁带容量 200GB)
135.6TB 261.2TB(2:1)
9840(磁带容量 20GB)
13.6TB 40.8TB(3:1)
库吞吐量
非压缩
压缩
DLT8000 6MB/秒(20 个驱动器)
432GB/小时 864GB/小时
LTO 15MB/秒(20 个驱动器)
1.08TB/小时 2.16TB/小时
LTO Gen2 35MB/秒
2.52TB/小时 5.14TB/小时
9840 10MB/秒(12 个驱动器)
432GB/小时 864GB/小时
介质
DLT/SDLT/LTO 或 9840
平均磁带存取时间
5 秒(9840 驱动器)
核查时间
低于 3 分钟
机械手控制
SCSI-3 介质交换命令集 快速/带宽接口,单端或差分 ASCLS SCSI 连结,本机原配光纤通道选项
条码阅读器
标准的基于数字照相机的视觉系统
校准
自动(带槽,驱动器,磁带存取端口)
驱动器清洁
自动化,由带库或软件启动
磁带存取端口(CAP)
标准,20 盘磁带的容量(可选第二个 20 盘磁带 的端口)每个 CAP 包含 4 个 5 盘磁带一组的可 移动磁带匣
控制面板
用户友好界面的配置和诊断控制,状态显示和 观察窗口
自动自配置
驱动器,带槽和 CAP 可进行自配置
可服务性
带电更换的驱动器、电源和风扇; 用于诊断的串行端口和以太网端口
内部机架空间
标准 19 英寸机架,13u 高(22.75 英寸)
MTTR(平均修理时间)
低于 30 分钟 表 5-
L700E 磁带库可靠性
MEBF(平均故障间交换次数)
2,000,000
MTBF(平均故障间隔时间)
360,000 小时(全面运行状态)
表 5尺寸:宽 X 高 X 深英寸(厘米)
L700E 磁带库物理数据 61.3X72.0X37.5(155.7X184.6X95.3) 深度 44.1(112),带扩充柜 深度 30.3(77.7),没有机壳或扩充柜
292
761 英镑(345 公斤);840 英镑(381 公斤),带扩充 柜
重量(带库自身重量)
表 5-
L700E 磁带库环境数据
运行状态
储存
运输状态
温度 华氏 摄氏
+59 至+90 +15 至+32
+50 至+104 +10 至+40
-40 至+140 -40 至+60
湿度
20%至 80%
10%至 95%
10%至 95%
湿度真空管(最大,非压 缩)
华氏+85 摄氏+29
+95 +35
+95 +35
-250 至 10,000 英尺(-76 至 3050 米)
纬度 表 5-
L700E 磁带库电源 200-240VAC@ 50-60Hz 单相自适应
电源输入 功耗(最大) 库
1.75A@120V,0.88A@240V,716BTU/小时
DLT8000 驱动器
0.42A@240V,327BTU/小时
LTO 驱动器(HP、IBM)
46VA/157BTU/hr 32VA/238BTU/hr
9840 驱动器
0.68A@240V,552BTU/小时 表 5-
L700E 磁带库有关认证
安全性
CSA 认证 CAN/CSA-C22.0 号码 950-95 UL 列入 UL1950,第三版 GS 授权至 EN60950,第二版,1991+A1,A2,A3,A4 Nemko,Semko,Demko,Fimko 认证 EN 60950(1992) A1/A2/A3/A4/AII,EMKO-TSE(74-SEC)207/94 GB 测试认证
辐射
FCC#47,第 15 章,Subpart B,Class A;VCCI Class A 欧盟 CE 辐射标准 AS/NZS 3548:1996(澳大利亚、新西兰);ICES-003 (加拿大)
免疫性
欧盟 CE 免疫标准
z
LTO 磁带机产品介绍
LTO (Linear Tape Open)是由 IBM、HP 和 Seagate 公司联合开发的一种新型技术,旨在 推出一种磁带格式的“开放”标准。LTO “开放格式” 技术意味着不同厂家提供的带机产 品和介质能够相互兼容。LTO Ultrium 是一种 1/2"、单轴、线绕式加载磁带机,它具有下述 特点:
293
每盒带具有 100-200GB 的大容量; 持续传送速率达 15-35MB/秒 (56GB-112GB/小时); 专利陶瓷涂层金属微粒(Ceramic Coated Metal Particle)磁带; 4KB Memory-盒带存储器; 1,000,000 次磁带通过次数; 为服务器进行备份、恢复和归档的理想设备; 通过了磁带股东委员会(TPC-the Tape Partners Committee) 标准组会议的认证。 LTO Ultrium 磁带机是与 DLT,SDLT 同类的中档市场产品。
z
Ultrium 格式的特点
高容量 Ultrium 可使一个压缩盒式磁带具有 100-200GB 的本地容量。该盒式磁带小于 现有的单轴盒式磁带。 高数据率 Ultrium 为第一代 8 信道版本提供了 10-20 MB/秒的数据传送速度。为与数据 传送速度较慢的系统相匹配,另备有数据传送速度为 5-10 MB/秒的 4 信道版本可供使用。 广泛的应用范围 在第一代 Ultrium 产品中提供 4 种不同的盒式磁带容量(10、30、50 和 100 GB)以及 4 信道和 8 信道磁头几何分布。容量成倍增长的盒式磁带使该项技术可以 与不同应用程序的容量、性能和成本要求相匹配。 开放线性磁带盒记忆功能的功能性因提供多余文件记录及用户定义信息得到增强。外部 阅读程序使不将盒式磁带插入驱动器即直接存取多余文件记录及用户定义信息成为可能。 开放线性磁带技术 Ultrium 利用了开放线性磁带技术公认的纠错和数据压缩技术。 适应性 只需要对盒式磁带数据交换需要的特性作出规定,Ultrium 格式保留了适应性。 这种适应性使性能特征、排列要素、可靠性、控制器和界面的实现具有相当大的自由度-同时盒式磁带在不同 Ultrium 磁带驱动器之间都可以互换。 一致的伺服系统 伺服系统格式在全部产品的使用期当中都保持一致。这一重要的优越 性使生产商能够使投资得到有效的使用。
294
多源性 多种介质和驱动器来源减少了生产瓶颈,还为原始设备制造商及终端用户的投 资提供了保护。 符合性 由独立机构进行的测试促进了对技术规范的符合性。这样缩短了资格鉴定的周 期简化了原始设备制造商的未来产品规划。
z
成熟的 LTO2 产品介绍
STK 在选用第三方产品的时候,需要进行严格的性能测试,兼容性,稳定性测试,目前 STK 已经按照测试要求进行测试,目前已经通过测试的成熟的 LTO2 包括:
(1),HP LTO2 SCSI-LVD 驱动器, (2),IBM LTO2 FC 驱动器, 同时,存储工程师正在严格测试 IBM LTO2 SCSI 驱动器和 SEAGATE LTO2 SCSI 驱动器, 估计在今年三季度初推出该成熟产品.正如对 LTO1 驱动器的支持一样,StorageTek 将一如既 往地支持 LTO 系列的三个生产厂家(HP,IBM,SEGATE)的全部 LTO 换代产品. 现将现有比较成熟的 HP-LTO2 和 IBM-LTO2 的相关性能指标对比如下:
比较项目
HP
IBM
容量
200GB
200GB
传输速率 (非压缩)
30M/S
35M/S
磁带装载/就绪时间
19s
15s
平均搜索时间
52s
49s
最大倒带时间
104/52s
98/49s
磁带卸载时间
13s
15s
磁带格式
Ultrium Generation 2
Ultrium Generation 2
磁头数量
8
8
250000HR(满负荷)
250000HR(满负荷)
磁头寿命
60000HR
60000HR
不可更正错码率
1x10-17
1x10-17
STK 已完成测试
SCSI LVD
FC/FCAL/FIBRIC
STK 正在测试
SCSI HVD
SCSI LVD
容量速率
读写时间
磁带格式
可靠性 MTBF
接口
295
供电 功率
z
46 VA
32VA
Ultrium LTO2 技术规格
Ultrium 产品系列设计中的可扩展性来自于授权技术的结合与有效利用,从而产生出了 技术可靠的移动通路。此种旗舰产品移动通路(8 信道版本)描述了一代又一代产品的改进 过程。 第1代
第 2 代*
第 3 代*
第 4 代*
容量
100 GB
200 GB
400 GB
800 GB
传输速度
10-20 MB/秒 20-40 MB/秒
40-80 MB/秒
80-160 MB/秒
数据记录方式
RLL 1,7
PRML
PRML
PRML
介质
MP
MP
MP
薄膜
LTO Ultrium Gen2 磁带机技术规格: 性能 持续传送速率(MB/秒) 固有 压缩 格式化容量 固有(GB) 压缩(GB) 平均文件访问时间 (秒) 到磁带头加载时间 (秒) 从磁带头卸载时间 (秒) 容量 固有 (GB) 压缩 (GB) 接口 (在 STK 磁带库中) 猝发传送速率 (MB/秒)
磁带格式 记录格式 记录密度 磁道密度 (tpi)
35 (可自动调节匹配较慢的通道) 70 200 400 (200GB 盒带,2:1 压缩比) 49 < 15 < 15 200 400 (2:1 压缩比) 80-40 LVD (低电压差分) Ultra 2 (快、宽) 40-20 HVD (高电压差分) Ultra 1 (快、宽) 固有 FC -选件 384 磁道顺序层绕,8 同时磁道 93 kbit/英寸 768
296
编码方法 数据压缩 可靠性 平均无故障时间 (小时) 磁头寿命 (小时) 加载/卸载 (循环) 不可校正误码率 不可检测误码率 物理指标 格式系数 (高 x 宽 x 深) 环境限制 运行 温度 (oC) 非冷凝湿度 (%) 海拔高度 (英尺,最大) 非运行 温度 (oC) 非冷凝湿度 (%) 海拔高度 (英尺,最大) 电源 电压 功耗 (瓦) 介质格式兼容性 Ultrium 标志介质
RLL (1,7) LTO-DC 250,000,100%占空因数 30,000 (磁带移动小时数) 100,000 1x1017 bits 读 1x1027 bits 读 5 1/4" 全高 82.5 x 146 x 203 mm
10-40 20-80 30,000 -40-66 包括介质 10-95 无规定 +5,+12 运行平均 20,运行峰值 35, 带盒带备机状态 11 1/2" 单轴 Ultrium 盒带
297
第十六章
专用术语参考表
16.1 SAN 专用术语 ABTS(中止基本链路服务) ACC(链路服务接受应答):对扩展链路服务请求(如 FLOGI)的正常回答,表示请求已被 接受。 Access fairness(公平接入):一个进程,用于保障竞争节点能够接入到仲裁环路中。 Access method(接入方法):接入到物理网络以传输数据的方法 ACK(确认帧):用于端对端的流量控制,对 Class-1 和 Class-2 连接中一个或多个帧的顺 利接收表示确认 Active copper(活动铜缆):允许设备之间连接距离达到 33 米的铜缆连接 Address identifier(地址识别符):一个 24 比特数字,用来指示通信设备的链路层地址。 每个数据帧帧头中的两个地址标识符分别用于标识源 ID 和目的 ID。 Alias server(别名服务器):一个推荐标准,FC-PH-3 的组成部分。它使用周知地址 FFFFF8,并维护一个标识符映射表,以支持多点广播组管理。 AL_PA(仲裁环路物理地址):一个 8 比特值,用来标识接入到仲裁环路中的设备。 AL_TIME(仲裁环路超时值):在最坏的网络状况下,广播一个字所需时间的两倍值。其 缺省值为 15 毫秒(ms)。 ANSI(美国国家标准学会):美国的标准管理机构。 ARB(仲裁原语):只用于仲裁环路拓扑结构,作为节点环路端口(L_Port)的填充字传输, 表示该节点可以接入到环路中 。 Arbitrated Loop(仲裁环路):一个共享的 100 Mbps 光纤通道传输链路,支持 126 个设备 和一个到架构中的接入端口,端口的仲裁环路物理地址(AL_PA)值越小,其优先级越高。
298
Arbitration(仲裁): 解决对共享环路拓扑的竞争,合理分配链路资源的方法。 ARP(地址解析协议):TCP/IP 协议组的一个组成部分,用于将 IP 地址转换为以太网地 址(即链路层 MAC 地址)。 ASIC(特定应用集成电路) ATM(异步传输模式):一种高速包交换技术,用来通过局域网或广域网传输数据,其数 据包具有固定的长度。它可提供网络中任意两点之间的连接,并且各节点可同时进行数据传 输。 Bandwidth(带宽):电缆,链路或系统传输数据的能力。 BB_Credit(缓冲区到缓冲区信用数):用来决定一次可向接收方发送多少帧数据。 Broadcast(广播):将一个数据包发送给架构中的所有 N_Port 端口 Bypass circuitry(旁路电路):当有效信号在传输中丢失时,使用该电路自动绕过信号通 路上的一个设备。 CAM(内容寻址内存) Camp on 推荐作为架构连接请求队列的优化手段,以使连接请求的受理顺序更加合理。 Cascade(级联):连接两个或更多的光纤通道集线器或交换机以增加端口数量或扩展网络 覆 盖 范 围 。 通 常 最 高 级 联 数 为 7 级 。 但 SilkWorm 1000 交 换 机 的 级 联 数 可 达 32, SilkWorm 2000 交换机更高达 239。 CDR(时钟和数据恢复电路) CEConformité Européenne. Channel(通道):点对点链路,用于将数据从网络中的一点传送到另一点。 CIM(通用信息模式):一个管理结构,允许使用一个通用程序管理各种完全不同的资源。 Class 1 一种面向连接的服务级别,需要对帧的发送和接收进行确认。 Class 2 一种无连接的服务级别,需要对 N_Port 端口之间帧的发送和接受进行确认。 Class 3 一种无连接的服务级别,无需对 N_Port 端口之间帧的发送和接受进行确认。
299
Class 4 一种面向连接的服务级别,允许使用虚电路的部分带宽。 Class 6 面向连接的多点广播服务。主要用于中央服务器和客户之间的视频广播。 Class F 一种无连接的服务级别,对扩展端口(E_Port)之间数据的发送成功或失败进行通 知。 CLS(撤消原语):只用于仲裁环路,由一个 L_Port 端口发送至另一个 L_Port 端口,用 于关闭现有连接,撤消对话。 Community(社区):在简单网络管理协议(SNMP)中,代理与管理站之间的关系集合,主 要包括对验证,访问控制和代理特性的定义。 Controller(控制器):一个计算机模块,用于解释主机与外设之间的信号,控制器通常为 外设的一部分。 COS(服务级别) CRC(循环冗余码校验):一种编码测试方法,用于对传输的数据进行错误检测与纠正。 Credit(信用值):表示 F/FL_Port 端口向 N/NL_Port 端口提供的最大缓冲区的数量值,以 防止 N/NL_Port 端口发送过多的数据帧,使接收缓冲区溢出。 Cut-through(捷径交换):一种交换技术,允许在取得帧中的目的地址后立刻作出路由决 定。 Datagram(数据报):一种 Class 3 光纤通道服务,允许快速发送数据到与架构相连的多个 设备,无需接收确认。 Dedicated simplex(专用单工):允许一个 N_Port 端口在保持一个 Class 1 连接的同时,作 为发起方初始化与另一个 N_Port 端口之间的对话。 Disparity(专用单工):允许一个 N_Port 端口在保持一个 Class 1 连接的同时,作为发起 方初始化与另一个 N_Port 端口之间的对话。 DLS(动态负载均衡):允许在 Fx 或 E_Port 端口发生变化时重新计算路由。 Domain ID(域标识符):为 SilkWorm 2000 系列交换机分配的一个 1-239 之间的唯一数字, 用于在架构中表示该交换机。
300
DWDM(密集波分多路复用):见波分多路复用,允许不同波长的波共用光纤。 E_D_TOV(故障检测超时值):某项操作可允许的数据来回的最长时间,超过此时间仍无 回应,即报错。 EE_Credit(端对端信用值):未得到确认的帧的最大数目,用于管理两个通信设备之间的 帧交换。 EIA(电子工业协会) 8b/10b encoding(8b/10b 编码):一种编码方案,将一个 8 比特字节编码为两个 10 比特字 符,用于平衡高速传输的比特流中 1 和 0 的数量。 ELP(扩展链路进程) Emulex 一个主机总线适配器的品牌 EOF(帧终止符):一组固定比特序列,标识帧的结束。 E_Port (扩展端口):用于连接两个交换机。 Exchange(交换):高层光纤通道机制,用于两个 N_Port 端口之间的单向或双向通信。 Fabric(交换):高层光纤通道机制,用于两个 N_Port 端口之间的单向或双向通信。 FAN(架构地址通知):在环路重新初始化时,保存仲裁环路物理地址和架构地址(需要交 换机支持)。 F_BSY(架构端口繁忙帧):架构发送此帧表示由于架构或目的 N_Port 端口繁忙而无法 进行数据的发送工作。 FCA(光纤通道协会) FC-0 光纤通道网络的最底层,即物理介质。 FC-1 本层包括有 8b/10b 编码方案。 FC-2 本层负责组帧和协议,帧结构,序列/交换管理和固定字符集的使用。 FC-3 本层包括用于一个节点的多个 N_Port 端口 的通用服务。
301
FC-4 本层负责处理标准与配置文件,服务于上层协议(如 SCSI 和 IP)到光纤通道协议的 映射工作。 FC-AL(光纤通道仲裁环路) FC-AV Fibre Channel Audio Visual. FC-CT(光纤通道通用传输) FC-FG(光纤通道一般要求) FC-FLA(光纤通道环路接入) FC-GS(光纤通道通用服务) FC-GS-2(光纤通道第二代通用服务) FC_IP(用于 IP 协议的光纤通道) FC-PH(光纤通道物理协议):用于 FC-0, FC-1 和 FC-2 层的物理和信号协议,同时还对 链路信令,物理介质类型和传输速度作了规定。 FC-PH-2(第二代物理接口) FC-PH-3(第三代物理接口) F_RJT(架构端口拒绝帧):架构发送的一个命令帧,用来指示帧发送请求被拒绝。拒绝 的原因可能为不支持服务级别,帧头无效或无可用的 N_Port 端口。 FC_SB(光纤通道单字节) FC-SW(光纤通道交换架构): 规定了光纤通道交换机互连和初始化的工具和算法,以建 立多交换机光纤通道架构。 FC-SW-2(第二代光纤通道交换架构):规定了互连和初始化光纤通道交换机以组成多交 换机光纤通道架构的算法和工具。 FC_VI(光纤通道虚拟接口) FCC(联邦通信委员会)
302
FCIA(光纤通道工业协会):其任务是为光纤通道产品培育和拓展市场。 FCLC(光纤通道环路社团) FCP(光纤通道协议):定义了 SCSI 接口到光纤通道的映射。 FDDI(光纤分布式数据接口):美国国家标准学会(ANSI)为城域网制定的网络结构标准, FDDI 网络基于光纤而建造,可提供每秒 100 兆比特的传输能力。 FFFFF5Class 6 多点广播服务器的周知光纤通道地址 FFFFF6 时钟同步服务器的周知光纤通道地址 FFFFF7 安全密钥分发服务器的周知光纤通道地址 FFFFF8 别名服务器的周知光纤通道地址 FFFFF9 服务质量(QoS)提供商的周知 光纤通道地址 FFFFFA 管理服务器的周知光纤通道地址 FFFFFB 时间服务器的周知光纤通道地址 FFFFFC 目录服务器的周知光纤通道地址 FFFFFD 架构控制器的周知光纤通道地址 FFFFFEF_Port 端口的周知光纤通道地址 FFFFFF 周知广播地址 Fill word 周知广播地址 FL_Port(架构环路端口):用于将环路连接到架构上,需要启用光纤环路接口卡 LED。 它是环路中 NL_Port 端口接入架构的入口。 Flash(闪存):一种可编程 NVRAM 存储器,可保存其中数据。 FLOGI(架构登录):节点逻辑连接到架构交换机上的过程。 F_Port 一种同 N_Port 端口连接的架构端口。 Fractional Bandwidth(部分带宽):使用链路的部分带宽传输数据,每个 N_Port 端口最多
303
可有 254 个 Class 4 连接。 Frame(帧):为网络传输而定义的数据单元,由帧起始定界符(SOF),帧头,数据部分, 循环冗余校验(CRC)以及帧终止符(EOF)几部分组成。数据部分长度为 0-2112 个字节,CRC 长度为 4 字节。 FRU(可实地替换单元):发生故障时可更换的部件。 FSP(光纤通道服务协议):用于所有服务的通用 FC-4 级协议,透明于架构类型和网络拓 扑结构。 FSPF(光纤最短路径优先协议):一种用于光纤通道交换机的路由协议。 Full duplex(全双工):在一条连接上同时发送和接受数据的能力。 Full fabric citizenship(全架构成员):可登录到名字服务的环路设备 Gateway(网关):用于连接不兼容网络的设备,能够提供必要的软硬件转换工作。 GBIC(千兆比特接口转换器):一个可拆卸的收发模块,提供光纤通道与千兆比特物理 层之间的转换。 Gbps 每秒千兆比特 GBps 每秒千兆字节 Gigabit1,062,500,000 比特 GLM(千兆比特链路模块):一个半透明收发器,具有串行/串并转换功能。 G_Port(通用端口):支持 E_Port 端口或 F_Port 端口的功能 GUI(图形用户界面) HBA(主机总线适配器)服务器或工作站总线与光纤通道网络之间的接口。 HiPPI(高性能并行接口):一个 800Mbit/sec 的接口,通常用于超级计算机环境。 Hot swappable(热替换):可以在加电状态下进行替换的部件。 HSSDC 高速串行数据连接
304
HTTP(超文本传输协议):用于 World Wide Web(万维网)的标准 TCP/IP 传输协议。 Hub(集线器):光纤通道线路连接器,用于将环路拓扑收缩为星型拓扑。集线器能够自 动识别一个活动节点,并将其加入到环路中,而停止工作的节点则被移出环路。 Hunt Group(寻找组):以一个别名 ID 注册的多个 N_Por 端口,以便架构将其路由至空 闲端口。 Idle(空闲):当链路中没有数据需要传输时,连续发送的固定二进制序列,以维持链路 的活动。也被用于维持比特,字节和字的同步。 In-band(带内):在光纤通道中用于管理协议的数据的传输。 Initiator(启动设备):在光纤通道网络中,同存储设备之间的事务的发起方,可以是服务 器或工作站。 Intercabinet(机柜间布线):铜缆架设的一种规范,允许机柜间连接距离长达 33 米。 Intermix(混合):允许 Class 1 连接中的闲置带宽用于 Class 2 或 Class 3 连接。 Interswitch(交换机间连接):见 ISL Intracabinet(机柜内布线):铜缆架设的一种规范,允许机柜布线长度达到 13 米。 IOD(有序发送):一个设置参数,保证各帧按顺序发送,否则便抛弃该帧。 IP(Internet 协议):TCP/IP 协议组的组成部分,负责与网络主机地址有关的工作。 IPI 智能外设接口 ISL(交换机间连接):两交换机之间通过 E_Port 端口的连接。 Isolated E_Port (隔离 E_Port 端口):存在 ISL 连接,但由于重叠的域 ID 或没有标识参数 如 E_D_TOV,而导致交换机间无数据传输,此时 E_Port 端口便处于隔离状态。 ISP(Internet 服务提供商) Jaycor 一个主机总线适配器的品牌 JBOD(磁盘束):多个磁盘被配置为仲裁环路的一个单元。
305
Jitter(抖动):当字节流通过物理介质时,时间同步的偏移。 K28.5 一种特殊的 10 比特字符,用来指示光纤通道命令帧的开始。 LAN(局域网):传输距离小于 5 公里的网络。 Latency(存储转发时间):数据帧在一个网络设备中停留的时间,即从帧到达该设备到被 转发之间的耗时。 LED(发光二级管):一个位于交换机上的状态指示器,通常有黄,绿两种状态。 Link(链路控制设备):一个终端卡,对不同模式下的光纤通道链路进行物理和逻辑控制。 LIFA(环路初始架构分配帧):包含由架构分配的所有仲裁环路物理地址(AL_PA)的位图, 是环路初始化过程中选定临时环路主控制器后发送的第一帧。 LIHA( 环 路 初 始 化 硬 分 配 帧 ) : 由 一 个 比 特 序 列 表 示 的 硬 分 配 仲 裁 环 路 物 理 地 址 (AL_PA),是环路初始化过程中选定临时环路主控制器后发送的第三帧。 LILP(环路初始化硬分配帧):由一个比特序列表示的硬分配仲裁环路物理地址(AL_PA), 是环路初始化过程中选定临时环路主控制器后发送的第三帧。 Link(链路):一个双向,点对点串行数据通道。 LIP(环路初始化进程):获取环路地址,指示环路故障或重启节点的方法。 LIPA(环路初始化预分配):在上一次环路初始化过程中未登录到架构中的设备在该帧中 标记一个比特位。 LIRP(环路初始化位置报告帧):在环路初始化过程中,所有 L_Port 端口选定其 AL_PA 地址后发送的第一帧。该帧被发送后,在环路中巡视,以便收集所有 L_Port 端口的相对物 理位置信息。该帧为可选帧。 LISA(环路初始化软分配帧):在环路初始化过程中发送的第四帧。该帧在选定了临时环 路主控制器之后发送。 LISM(环路初始化主控制器选择帧):在环路初始化过程中,当 L_Port 端口选择仲裁环 路物理地址(AL_PA)时发送的第一帧。
306
Login server(登录服务器):处理登录请求的单元。 LoomBrocade 公司第二代架构专用集成电路(ASIC)的代号。第二代架构专用集成电路用 于 SilkWorm 2xxx 系列交换机中。 Looplet(小环路):由架构连接的私有仲裁环路。 LPB(环路端口旁路):由一个节点环路端口(L_Port)发送的原语序列,用来旁路另一个它 指向的节点环路端口。只用于仲裁环路。 LPE(环路端口启用):由一个节点环路端口发送的原语序列,用来激活被 LPB 原语旁路 的另一个节点环路端口,只用于仲裁环路。 L_Port(节点环路端口):支持仲裁环路协议的端口 LPSM(环路端口状态机):监视和执行初始化任务并接入到架构的一套逻辑。由节点环 路端口管理,以跟踪环路操作中不同阶段的状态。 LR(链路重启):一个原语序列,在两个 N_Port 端口(点对点拓扑)或一个 N_Port 端口与 一个 F_Port 端口(架构拓扑)之间链路的初始化过程中使用。期望的答应为一个 LRR 原语序 列(见下)。 LRR(链路重启应答):一个原语序列,在两个 N_Port 端口(点对点拓扑)或一个 N_Port 端 口与一个 F_Port 端口(架构拓扑)之间链路的初始化过程中使用, 作为对 LR 原语序列的回应, 期望一个空闲应答。 LWL(长波光纤):连接器色码为蓝色,基于 1300 毫米激光,支持 1.0625 千兆比特/秒的 链路速度。 MAN(城域网) Mbps(兆比特/秒) MBps(兆字节/秒) Metric(步长):一个分配给路由器的相对值,用来帮助计算最短路径。 MIA(介质接口适配器):光纤至铜缆之间的连接转换设备。
307
MIB(介质接口适配器):光纤至铜缆之间的连接转换设备。 MRK(标记原语信号):只用于仲裁环路中,由 L_Port 端口发送,用于实现收发方同步。 不同厂家对该信号有不同的定义。 MTBF(故障平均间隔) Multicast(多点广播):一种受限的广播,将信息发送到网络中的一组 N_Port 端口上。 Multimode(多模光纤):一种光纤规格,允许设备之间的传输距离达到 500 米。 Name Server/Service(多模光纤):一种光纤规格,允许设备之间的传输距离达到 500 米。 NAS(网络存储设备):一个连接到控制器的磁盘阵列,通过该控制器接入到局域网中。 NDMP(网络数据管理协议):用于磁带备份,无需占用服务器资源。 NIC(网络接口卡) NL_Port(节点环路端口):支持仲裁环路协议的端口。 Node(节点):光纤通道设备,支持一个或多个端口。 Node name(节点名):一个分配给光纤通道节点的 64 比特标识符。 Non-OFC 一种激光收发器,由于其低强度而无需开放式光纤控制。 Nonparticipating Mode(多加入模式):当接入到环路中的设备超过 127 个,从而无法获取 仲裁环路物理地址时,便转入此模式。 NOS( 无 操 作 原 语 序 列 ) : 一 个 原 语 序 列 , 在 两 个 N_Port 端 口 ( 点 对 点 拓 扑 ) 或 一 个 N_Port 端口与一个 F_Port 端口(架构拓扑)之间链路的初始化过程中使用。该原语序列表 示发送端口检测到链路故障或接收放不在环路中。 N_Port ( N_Port 端口):架构或点对点连接中的光纤通道端口。 OFC(开放式架构控制):一种允许或禁止高强度激光收发器的激光信号的方法。 OLS(离线原语序列):一个原语序列,在两个 N_Port 端口(点对点拓扑)或一个 N_Port 端 口与一个 F_Port 端口(架构拓扑)之间链路的初始化过程中使用。该原语序列表示发送端口正试图初始化一个
308
链路,已识别 NOS 原语序列或即将离线。期望的应答为链路重启原语(LR)。 OLTP(在线事务进程) Operation(操作):一个 FC-2 用语,指建立区块。 OPN(连接建立原语信号):只用于仲裁环路,由获得仲裁进程的 L_Port 端口发送,以建 立与环路中其它端口的会话。 Ordered set(有序集):一组低层协议,对帧传输,初始化和介质访问进行管理,并区分 光纤通道中的控制信息和数据。 Originator (发起方):启动对话的 N_Port 端口 Out-of-band(带外):在光纤通道网络之外(通常是在以太网)进行的管理协议信息的传输。 OX_ID (发起方会话标识符):数据帧帧头中的一个两字节域,用来指示帧所属的连接。 Parallel(并行):在多条线路上同时传输数据位。 Participating Mode(加入模式):L_Port 端口的正常操作模式, L_Port 端口取得仲裁环路 物理地址后即工作在此模式下。 Passive copper A low-cost copper fibre channel connection allowing distances up to 13 meter s (14 yards) between devices. PBC (端口旁路电路):集线器或磁盘设备中的一个电路,用于打开或关闭一个环路以加 入或移走节点。 PLDA(私有环路直接连接):一个逻辑环路。 PLOGI 一个端口对端口登录进程。通过该过程,发起方同目标建立对话。 Point to Point(点对点):两设备之间专用的光纤通道连接。 Port(端口):一个光纤通道入口,用于将节点连接到网络中。 Port Log(端口日志):交换机所有活动的一份记录。 Port Log Dump(端口日志查看):一个读取端口日志的命令,以查看交换机中发生的事件。 Port name(端口名):一个分配给光纤通道端口的 64 比特标识符
309
POST(加电自检):交换机检查其部件的例行程序。 Primitive sequence(原语序列):一个顺序比特集,用于指示或启动网络介质的状态转换, 至少需要连续发送三遍,接收方才会做出应答。 Primitive signals (原语信号):一个顺序比特集,用于指示活动或事件。只需发送一次, 对方即会作出应答。空闲(Idle)和就绪(R_RDY)用于所有的三种拓扑结构(ARB,OPN 和 CLS) 中,MRK 只用于仲裁环路中。 Private device(专用设备):支持环路,可识别 8 比特地址,但不能登录到架构中。 Private loop(专用环路):未连接到架构中的仲裁环路。 Private loop device(专用环路设备):未连接到结构中的仲裁环路设备, Private NL_Port(专用 NL_Port 端口):公共或专用环路中的一个 NL_Port 端口,只与环 路中的其它端口通信,与架构之间不进行通信。 PSU 电源 Public device(公共设备):既支持环路,又能够登录到架构中的设备。 Public loop(公共环路):连接到架构上的一个仲裁环路。 Public loop device(公共环路设备):一个支持架构登录和服务的仲裁环路设备。 Public NL_Port(公共 NL_Port 端口):既可与环路中其它端口通信,又可通过 FL_Port 端 口与架构中的 N_Port 端口通信的 NL_Port 端口。 Qlogic(公共 NL_Port 端口):既可与环路中其它端口通信,又可通过 FL_Port 端口与架 构中的 N_Port 端口通信的 NL_Port 端口。 QoS(服务质量) Queue(队列):在将帧发送到环路中之前,在每个仲裁环路物理地址处收集帧的机制。 QuickLoop(快速环路):Brocade 公司的一个软件产品,允许一个交换机的多端口组成一 个逻辑私有环路直接连接(PLDA)。 RAID(廉价磁盘冗余阵列):服务器可将其视为单一卷的一组磁盘,通过磁盘镜像或奇
310
偶校验技术而具备容错性。 R_A_TOV(资源分配超时值):用于超时操作中,指一个帧在架构中的最长允许停留时 间。 Receiver(接收方):进行信号检测及处理工作的设备。 Redundancy(冗余):维持多个同功能的部件以获得高可用性。 Remote switch(远程交换机):一个通过计算机网络技术网关跨越 ATM 网络的可选设备。 Repeater(中继器):通过恢复时钟再生并传输外发信号的设备。 Responder(中继器):通过恢复时钟再生并传输外发信号的设备。 Retimer(重定时器):使用独立时钟产生外发信号的设备。 Route(路由):两交换机之间的一条通路。 R_RDY(接受方就绪):一个原语信号,表示接收方准备接收数据。 RSCN(状态改变通知):交换机具备的一项功能,负责在架构本身或其内部状态发生改 变时,通知注册的节点。 R_T_TOV(收发方超时值):接收方采用此值来检测收发方同步是否丢失。 RX_ID(应答方连接标识符):帧头中的一个两字节域,应答方利用其值来指示帧所属的 连接。 S_ID(源 ID):帧头中一个三字节域,其值为该帧发送端口的地址标识符。 SAN(存储区网络):通过光纤将计算设备和磁盘或磁带阵列相连组成的网络,用于存储 目的。 SCR(状态改变注册):使用此命令进行注册的设备才可以接收 RSCN 通知。 SCSI(小型计算机系统接口):一个并行总线基础结构极其协议,用于在 15-25 米的距离 上传输大的数据块。 SCSI-2 总线结构的更高版本。
311
SCSI-3 用于串行线路的 SCSI 总线标准。 SEQ_ID(序列标识符):帧头中的一个单字节域。连接的应答方利用其值标识帧所属的 连接。 Sequence(帧序列):从一个 N_Port 端口到另一个 N_Port 端口发送的一组相关帧。 Sequence initiator(序列发起方):产生并发送一个新序列的 N_Port 端口。 Sequence recipient(序列接收方):特定序列的目的 N_Port 端口。 SERDES(串行并行转换电路):将串行比特流转换为并行字符或进行反向转换工作的电 路。 Serial(串行):在单一线路上顺序进行数据比特传输。 Server(服务器):一个中央计算机:处理终端用户请求或运行应用程序。 SES(SCSI 接口独立设备服务):SCSI 协议组的一个子集,用来监视独立设备的温度, 供电和风扇状态。 SilkWormBrocade 公司系列交换机品牌。 Single mode(单模光纤):一种光纤规格,允许设备之间的传输距离达到 10 公里。 sLink service(sLink 服务):位于架构与一个 N_Port 端口或两个 N_Port 端口之间,用于 登录,序列/传输管理和维持连接的设备。 SMI(管理信息结构):一个用于设置或获取简单网络管理协议(SNMP)管理变量的符号结 构。 SNMP(简单网络管理协议):TCP/IP 协议组中的一个协议,用于 TCP/IP 网络的管理, 采用代理和工作站的管理方式。 SNS(简单名字服务器/服务):由架构服务器提供的一种服务,用于存储架构相关对象的 名字,地址和属性。信息可在高速缓冲区保留 15 分钟。也被称为目录服务。 SOF (帧起始符):一组固定比特,标识帧的开始和服务级别。 SoIP(IP 网络上的 SCSI 接口)
312
SONET(同步光纤网络):一个光纤网络标准,可提供积木式组件和灵活的净荷映射。 Special character(特殊字符):一个 10 比特字符,无对应的 8 比特值,但仍被视为有效值, 用于表示某一传输字是一个有序比特集。它是唯一可能包含连续 5 个 1 或 5 个 0 的字符。 SRM(存储资源管理):对磁盘卷和文件资源的管理。 Stealth mode(窃用模式):一些交换机使用 QuickLoop 程序以取得同 Brocade 交换机相似 的工作特性,这种方法称为窃用模式。 Storage(存储设备):用于存储数据的设备,如磁盘或磁带 Store-and-forward(存储设备):用于存储数据的设备,如磁盘或磁带 Striping(磁盘条纹):一种 RAID 技术,将文件分割成块写多个磁盘中,带奇偶校验或不 带奇偶校验。 Switch(交换机):一种架构设备,可为每个端口提供全部带宽并通过链路层地址实现高 速数据路由。 SWL (短波光纤):连接器色码为黑色,基于 850 毫米激光,支持 1.0625 千兆比特/秒的 链路速度。 T11(T11 标准委员会):一个标准委员会,致力于为中央计算机收发数据制订标准。 Tachyon 由 HP 公司开发的一种芯片,可用于多种设备,在一个芯片上集成有 FC-0 到 FC-2。 Target(存储目标):光纤通道网络中的一个磁盘阵列或磁带机。 TCP/IP(传输控制协议/网际协议):Internet 的标准协议组 Telnet 基于 TCP/IP 的远程虚拟终端。 Tenancy(链路租用):网络设备对仲裁环路的临时占用,以便进行数据传输。 Time server(时间服务器):一种光纤通道服务,可管理所有定时器 Topology(拓扑):网络结构中设备的物理或逻辑布局。 TPC(第三方拷贝):一种磁带备份协议,无需占用服务器资源。
313
Transceiver(第三方拷贝):一种磁带备份协议,无需占用服务器资源。 Translative mode(转移模式):允许公用设备同专用设备跨架构进行通信。 Transmission character(传输字符):在光纤通道中连续传输的有效或无效字符。 Transmission word(传输字符):在光纤通道中连续传输的有效或无效字符。 Trap(陷阱):简单网络管理协议的一种机制,代理通过该机制向管理站发送重大事件通 知。 TTL(生存期):一个条目在缓存中的存留时间。 Tunneling(隧道技术):一种在不同网络间传输数据的技术,适用情况:源主机与目的主 机所在网络为同一类型,中间转发网络为其它类型。 U_Port (隧道技术):一种在不同网络间传输数据的技术,适用情况:源主机与目的主机 所在网络为同一类型,中间转发网络为其它类型。 ULP (高层协议):用于光纤通道介质与 FC-4 层之间的协议。代表性的有 SCSI,IP, HiPPI 和 IPI 协议。 Unicast(高层协议):用于光纤通道介质与 FC-4 层之间的协议。代表性的有 SCSI,IP, HiPPI 和 IPI 协议。 VAR(增值转售商) VCSEL(垂直表面激光发射器):一种经改良的,更加可靠的激光发射器。 Virtual circuit(虚电路):N_Port 端口之间的一条单向通路,允许几个传输共用全部带宽。 WAN(广域网) WDM (广域网) World-Wide Name 用于架构节点和端口的一个 64 比特注册标识符。该标识符是全球唯 一的。 Zoning(分区):架构交换机或集线器的一项功能,允许按照节点的物理端口,节点名或 节点地址对节点进行分段。
314
16.2 NAS 技术术语 最大存储容量
最存储大存储容量是指 NAS 存储设备所能存储数据容量的极限,通俗
的讲,就是 NAS 设备能够支持的最大硬盘数量乘以单个硬盘容量就是最大存储容量。这个 数值取决于 NAS 设备的硬件规格。不同的硬件级别,适用的范围不同,存储容量也就有所 差别。通常,一般小型的 NAS 存储设备会支持几百 GB 的存储容量,适合中小型公司作为 存储设备共享数据使用,而中高档的 NAS 设备应该支持 T 级别的容量(1T=1000G)。 同普通电脑类似,NAS 产品也都具有自己的处理器(CPU)系统,来协调控制整个系 统的正常运行。其采用的处理器也常常与台式机或服务器的 CPU 大体相同。目前主要有以 下几类。 (1)Intel 系列处理器 从奔腾时代开始,Intel(英特尔)推出了专用于服务器的 CPU——Pentium Pro,即“高 能奔腾”;进入奔腾三时代之后,英特尔又推出了相应的服务器(工作站)的 CPU——Xeon, 即“至强”;奔腾四相对应的服务器 CPU 也称为“Xeon”(至强)。如联想万全 4200 服务器最 大支持 4 颗 Intel Pentium Xeon 700 MHz CPU,内置 1MB 或 2MB 全速缓存。这款服务器是 联想的高端企业级服务器产品,是大型企业、重要行业等关键部门处理大数据量业务、关键 任务时不错的选择。 目前 INTEL 的 CPU 的产品线也是非常的长,下面是各种流行处理器的技术参数和 规格:
315
注: a.ATC 是 Advanced Transfer Cache. 以"E"命名的处理器带有 ATC。 b.以"B"命名的处理器的 front-side bus 是 133MHZ。 Intel 现在生产的 CPU 中,Pentium 4(奔腾 4)和 Celeron(赛扬)是面向 PC 的, Xeon(至强)、XeonMP 和 Itanium(安腾)是面向工作站和服务器的。其中 Itanium 是与其 他 CPU 完全不同的 64 位 CPU,设计时并没有考虑用于现有的 Windows 应用。其他的处理 器虽然在最高工作频率、FSB(前端总线频率)和缓存容量等方面各有不同,但内部设计基 本相同,同时可保证软件兼容。Pentium 4(Celeron)和 Xeon(至强)的最大差别是 Xeon 能构建多处理器系统,而 P4 不行。P4 组建的系统中只能用一个 CPU,Xeon 可以用 2 块 CPU 组建双处理器系统,而 Xeon MP 可以用 4 块以上 CPU 组建系统。“MP”也就是“Multi Processing Platform”(多处理器平台) 。
316
多处理器系统可以用于三维图形制作和动画文件编码等单处理器无法实现的高处理速 度应用,还可用于服务器(工作站)中数据库处理等高负荷高速度应用中。此外,P4(奔腾 4)用 478 针封装,Xeon(至强)用 604 针封装,而且支持它们的芯片组也不同,因而不能互 换使用。 (4)AMD 系列处理器 AMD 也生产面向工作站和服务器的 Athlon MP 处理器。其内部设计与 Athlon XP 基本 相同,但支持双 CPU。“MP”也就是“Multi Processing Platform”(多处理器平台)的缩写。
317
(5)PA-RISC 型处理器 HP(惠普)公司的 RISC 芯片 PA-RISC 于 1986 年问世。第一款芯片的型号为 PA-8000, 主频为 180MHz,后来陆续推出 PA—8200、PA-8500 和 PA-8600 等型号。HP 公司开发的 64 位微处理器 PA-8700 于 2001 年上半年正式投入服务器和工作站的使用。这种新型处理器的 设计主频达到 800MHz 以上。PA-8700 使用的工艺是 0.18 微米 SOI 铜 CMOS 工艺,采用 7 层铜导体互连,芯片上的高速成缓存达到 2.25MB,比 PA-8600 增加了 50%。 HP 公司陆续推出 PA-8800 和 PA-8900 处理器,其主频分别达到 1GHz 和 1.2GHz。 RA-RISC 同时也是 IA-64 的基础。在未来的 IA-64 芯片中,会继续保持许多 PA-RISC 芯片 的重要特性,包括 PA-RISC 的虚拟存储架构、统一数据格式、浮点运算、多媒体和图形加 速等。 (6)PowerPC 处理器 二十世纪九十年代,IBM(国际商用机器公司)、Apple(苹果公司)和 Motorola(摩托罗 拉)公司开发 PowerPC 芯片成功,并制造出基于 PowerPC 的多处理器计算机。PowerPC 架 构的特点是可伸缩性好、方便灵活。第一代 PowerPC 采用 0.6 微米的生产工艺,晶体管的集 成度达到单芯片 300 万个。 1998 年,铜芯片问世,开创了一个新的历史纪元。2000 年,IBM 开始大批推出采用铜 芯片的产品,如 RS/6000 的 X80 系列产品。铜技术取代了已经沿用了 30 年的铝技术,使硅 芯片多 CPU 的生产工艺达到了 0.20 微米的水平,单芯片集成 2 亿个晶体管,大大提高了运 算性能。而 1.8V 的低电压操作(原为 2.5V)大大降低了芯片的功耗,容易散热,从而大大 提高了系统的稳定性 (7)MIPS 处理器 MIPS 技术公司是一家设计制造高性能、高档次及嵌入式 32 位和 64 位处理器的厂商, 在 RISC 处理器方面占有重要地位。1984 年,MIPS 计算机公司成立。1992 年,SGI 收购了 MIPS 计算机公司。1998 年,MIPS 脱离 SGI,成为 MIPS 技术公司。 MIPS 公司设计 RISC 处理器始于二十世纪八十年代初,1986 年推出 R2000 处理器,1988 年推 R3000 处理器,1991 年推出第一款 64 位商用微处器 R4000。之后又陆续推出 R8000(于
318
1994 年)、R10000(于 1996 年)和 R12000(于 1997 年)等型号。 随后,MIPS 公司的战略发生变化,把重点放在嵌入式系统。1999 年,MIPS 公司发布 MIPS32 和 MIPS64 架构标准,为未来 MIPS 处理器的开发奠定了基础。新的架构集成了所 有原来 NIPS 指令集,并且增加了许多更强大的功能。MIPS 公司陆续开发了高性能、低功 耗的 32 位处理器内核(core)MIPS324Kc 与高性能 64 位处理器内核 MIPS64 5Kc。2000 年, MIPS 公司发布了针对 MIPS32 4Kc 的版本以及 64 位 MIPS 64 20Kc 处理器内核。 一般针对中小型公司使用 NAS 产品采用 AMD 的处理器或 Intel PIII/PIV 等处理器。而 大规模应用的 NAS 产品则使用 Intel Xeon 处理器、或者 RISC 型处理器等。但是也不能一概 而论,视具体应用和厂商规划而定。 内存 NAS 从结构上讲就是一台精简型的电脑,每台 NAS 设备都配备了一定数量的内存,而 且大多用户以后可以扩充。在 NAS 设备中,常见的内存类型由 SDRAM(同步内存)、FLASH (闪存)等。不同的 NAS 产品出厂时配备的内存容量不同,一般为几十兆到数 GB (1GB=1000MB)容量不等,这取决于 NAS 产品的应用范围,一般来讲,应用在小规模的 局域网当中的 NAS,如果只是应付几台设备的访问,64M 以下内存容量即可。如果是上百 个节点以上的访问,就得需要上 G 容量的内存。当然,这不是绝对的因素,NAS 产品的综 合性能发挥还取决于它的处理器能力、硬盘速度及其网络实际环境等因素的制约。总之,选 购 NAS 产品时,应该综合考虑各个方面的性能参数 接口 NAS 产品的外部接口比较简单,由于只是通过内置网卡与外界通讯,所以一般只具有 以太网络接口,通常是 RJ45 规格,而这种接口网卡一般都是 100M 网卡或 1000M 网卡。另 外,也有部分 NAS 产品需要与 SAN(存储区域网络)产品连接提供更为强大的功能,所以 也可能会有 FC(Fiber Channel 光纤通道)接口。
预置软件系统 预制操作系统是指 NAS 产品出厂时随机带的操作系统或者管理软件。目前 NAS 产品一
319
般带有以下几种系统软件。 精简的 WINDOWS2000 系统 这类系统只是保留了 WINDOWS2000 SERVER 系统核心网络中最重要的部分,能够驱 动 NAS 产品正常工作。存储工程师可以把它理解为 WINDOWS2000 的“精简版”。 FreeBSD 嵌入式系统 FreeBSD 是类 UNIX 系统,在网络应用方面具备极其优异的性能。 Linux 嵌入式系统 Linux 系统类似于 UNIX 操组系统,但相比之下具有界面友好、内核升级迅速等特点。常 常用来作为电器等产品的嵌入式控制系统。 操作系统 目前 NAS 产品主要支持以下几类操作系统: 1. Windows 类 对于这类操作系统相信用过电脑的人都不会陌生,这是全球最大的软件开发商 --Microsoft(微软)公司开发的。Microsoft 公司的 Windows 系统不仅在个人操作系统中占 有绝对优势,它在网络操作系统中也是具有非常强劲的力量。这类操作系统配置在整个局域 网配置中是最常见的,但由于它对服务器的硬件要求较高,且稳定性能不是很高,所以微软 的网络操作系统一般只是用在中低档服务器中,高端服务器通常采用 UNIX、LINUX 或 Solairs 等非 Windows 操作系统。在局域网中,微软的网络操作系统主要有:Windows NT 4.0 Serve、Windows 2000 Server/Advance Server,以及最新的 Windows 2003 Server/ Advance Server 等,工作站系统可以采用任一 Windows 或非 Windows 操作系统,包括个人操作系统, 如 Windows 9x/ME/XP 等。 2. NetWare 类 NetWare 操作系统虽然远不如早几年那么风光,在局域网中早已失去了当年雄霸一方的 气势,但是 NetWare 操作系统仍以对网络硬件的要求较低(工作站只要是 286 机就可以了) 而受到一些设备比较落后的中、小型企业,特别是学校的青睐。人们一时还忘不了它在无盘 工作站组建方面的优势,还忘不了它那毫无过份需求的大度。且因为它兼容 DOS 命令,其
320
应用环境与 DOS 相似,经过长时间的发展,具有相当丰富的应用软件支持,技术完善、可 靠。目前常用的版本有 3.11、3.12 和 4.10 、V4.11,V5.0 等中英文版本,NetWare 服务器对 无盘站和游戏的支持较好,常用于教学网和游戏厅。目前这种操作系统有市场占有率呈下降 趋势,这部分的市场主要被 Windows NT/2000 和 Linux 系统瓜分了。 3.
Unix 系统
目前常用的 UNIX 系统版本主要有:Unix SUR4.0、HP-UX 11.0,SUN 的 Solaris8.0 等。 支持网络文件系统服务,提供数据等应用,功能强大,由 AT&T 和 SCO 公司推出。这种网络 操作系统稳定和安全性能非常好,但由于它多数是以命令方式来进行操作的,不容易掌握, 特别是初级用户。正因如此,小型局域网基本不使用 Unix 作为网络操作系统,UNIX 一般用 于大型的网站或大型的企、事业局域网中。UNIX 网络操作系统历史悠久,其良好的网络管 理功能已为广大网络 用户所接受,拥有丰富的应用软件的支持。目前 UNIX 网络操作系统的 版本 有:AT&T 和 SCO 的 UNIXSVR3.2、SVR4.0 和 SVR4.2 等。UNIX 本是针对小型机 主机环 境开发的操作系统,是一种集中式分时多用户体系结构。因其体系 结构不够合理,UNIX 的 市场占有率呈下降趋势。 4. Linux 这是一种新型的网络操作系统,它的最大的特点就是源代码开放,可以免费得到许多应 用程序。目前也有中文版本的 Linux,如 REDHAT(红帽子),红旗 Linux 等。在国内得到了用 户充分的肯定,主要体现在它的安全性和稳定性方面,它与 Unix 有许多类似之处。 网络管理 网络管理,是指网络管理员通过网络管理程序对网络上的资源进行集中化管理的操作, 包括配置管理、性能和记账管理、问题管理、操作管理和变化管理等。一台设备所支持的管 理程度反映了该设备的可管理性及可操作性。 一般的网络满足 SNMP MIB I / MIB II 统计管理功能。常见的网络管理方式有以下几 种: (1) SNMP 管理技术 (2) RMON 管理技术 (3) 基于 WEB 的网络管理 SNMP 是英文“Simple Network Management Protocol”的缩写,中文意思是“简单网 络管理协议”。SNMP 首先是由 Internet 工程任务组织(Internet Engineering Task Force)(IETF)的研究小组为了解决 Internet 上的路由器管理问题而提出的。
321
SNMP 是目前最常用的环境管理协议。SNMP 被设计成与协议无关,所以它可以在 IP,IPX, AppleTalk,OSI 以及其他用到的传输协议上被使用。SNMP 是一系列协议组和规范(见下表), 它们提供了一种从网络上的设备中收集网络管理信息的方法。SNMP 也为设备向网络管理工 作站报告问题和错误提供了一种方法。 目前,几乎所有的网络设备生产厂家都实现了对 SNMP 的支持。领导潮流的 SNMP 是一个 从网络上的设备收集管理信息的公用通信协议。设备的管理者收集这些信息并记录在管理信 息库(MIB)中。这些信息报告设备的特性、数据吞吐量、通信超载和错误等。MIB 有公共 的格式,所以来自多个厂商的 SNMP 管理工具可以收集 MIB 信息,在管理控制台上呈现给系 统管理员。 通过将 SNMP 嵌入数据通信设备,如交换机或集线器中,就可以从一个中心站管理这些 设备,并以图形方式查看信息。目前可获取的很多管理应用程序通常可在大多数当前使用的 操作系统下运行,如 Windows3.11、Windows95 、Windows NT 和不同版本 UNIX 的等。 一个被管理的设备有一个管理代理,它负责向管理站请求信息和动作,代理还可以借助 于陷阱为管理站提供站动提供的信息,因此,一些关键的网络设备(如集线器、路由器、交 换机等)提供这一管理代理,又称 SNMP 代理,以便通过 SNMP 管理站进行管理。 网络协议 网络协议即网络中(包括互联网)传递、管理信息的一些规范。如同人与人之间相互交 流是需要遵循一定的规矩一样,计算机之间的相互通信需要共同遵守一定的规则,这些规则 就称为网络协议。 一台计算机只有在遵守网络协议的前提下,才能在网络上与其他计算机进行正常的通 信。网络协议通常被分为几个层次,每层完成自己单独的功能。通信双方只有在共同的层次 间才能相互联系。常见的协议有:TCP/IP 协议、IPX/SPX 协议、NetBEUI 协议等。在局域网 中用得的比较多的是 IPX/SPX.。用户如果访问 Internet,则必须在网络协议中添加 TCP/IP 协议。 TCP/IP 是“transmission Control Protocol/Internet Protocol”的简写,中文译名 为传输控制协议/互联网络协议)协议, TCP/IP(传输控制协议/网间协议)是一种网络通 信协议,它规范了网络上的所有通信设备,尤其是一个主机与另一个主机之间的数据往来格 式以及传送方式。TCP/IP 是 INTERNET 的基础协议,也是一种电脑数据打包和寻址的标准方 法。在数据传送中,可以形象地理解为有两个信封,TCP 和 IP 就像是信封,要传递的信息 被划分成若干段,每一段塞入一个 TCP 信封,并在该信封面上记录有分段号的信息,再将 TCP 信封塞入 IP 大信封,发送上网。在接受端,一个 TCP 软件包收集信封,抽出数据,按 发送前的顺序还原,并加以校验,若发现差错,TCP 将会要求重发。因此,TCP/IP 在 INTERNET 中几乎可以无差错地传送数据。 对普通用户来说,并不需要了解网络协议的整个结构,仅 需了解 IP 的地址格式,即可与世界各地进行网络通信。 IPX/SPX 是基于施乐的 XEROX’S Network System(XNS)协议,而 SPX 是基于施乐的 XEROX’S SPP(Sequenced Packet Protocol:顺序包协议)协议,它们都是由 novell 公司 开发出来应用于局域网的一种高速协议。它和 TCP/IP 的一个显著不同就是它不使用 ip 地址, 而是使用网卡的物理地址即(MAC)地址。在实际使用中,它基本不需要什么设置,装上就 可以使用了。由于其在网络普及初期发挥了巨大的作用,所以得到了很多厂商的支持,包括 microsoft 等,到现在很多软件和硬件也均支持这种协议。
322
NetBEUI 即 NetBios Enhanced User Interface ,或 NetBios 增强用户接口。它是 NetBIOS 协议的增强版本,曾被许多操作系统采用,例如 Windows for Workgroup、 Win 9x 系列、Windows NT 等。NETBEUI 协议在许多情形下很有用,是 WINDOWS98 之前的操作系统的缺省协议。总之 NetBEUI 协议是一种短小精悍、通信效率高的广播型协议,安装后不需要进行设置,特别适 合于在“网络邻居”传送数据。所以可以除了 TCP/IP 协议之外,局域网的计算机最好也安 上 NetBEUI 协议。另外还有一点要注意,如果一台只装了 TCP/IP 协议的 WINDOWS98 机器要 想加入到 WINNT 域,也必须安装 NetBEUI 协议 网络文件协议 网络文件系统是基于网络的分布式文件系统,其文件系统树的各节点可以存在于不同的 联网计算机甚至不同的系统平台上,可以用来提供跨平台的信息存储与共享。 当今最主要的两大网络文件系统是 Sun 提出的 NFS(Network File System)以及由微 软、EMC 和 NetApp 提出的 CIFS(Common Internet File System),前者主要用于各种 Unix 平台,后者则主要用于 Windows 平台,存储工程师熟悉的“网上邻居”的文件共享方式就是 基于 CIFS 系统的。其他著名的网络文件系统还有 Novell 公司的 NCP(网络控制协议)、Apple 公司的 AFP 以及卡内基-梅隆大学的 Coda 等,NAS 的主要功能之一便是通过各种网络文件系 统提供存储服务。
网络备份软件 目前在数据存储领域可以完成网络数据备份管理的软件产品主要有 Legato 公司的 NetWorker、IBM 公司 的 Tivoli、Veritas 公司 的 NetBackup 等。另外有些操作系统,诸 如 Unix 的 tar/cpio、Windows2000/NT 的 Windows Backup、Netware 的 Sbackup 也可以作为 NAS 的备份软件。 NetBackup NetBackup 是 Veritas 公司推出的适用于中型和大型的存储系统的备份软件,可以广泛 的支持各种开放平台。另外该公司还推出了适合低端的备份软件 Backup Exec。 NetWorker NetWorker 是 Legato 公司推出的备份软件,它适用于大型的复杂网络环境,具有各种 先进的备份技术机制,广泛的支持各种开放系统平台。值得一提的是, NetWorker 中的 Cellestra 技术第一个在产品上实现了 Serverless Backup(无伺服器备份)的思想。
323
IBM Tivoli IBM Tivoli 是 IBM 公司推出的备份软件,与 Veritas 的 NetBackup 和 Legato 的 NetWorker 相比,Tivoli Storage Manager 更多的适用于 IBM 主机为主的系统平台,其强大的网络备 份功能可以胜任大规模的海量存储系统的备份需要。 此外,CA 公司原来的备份软件 ARCServe,在低端市场具有相当广泛的影响力。其新一 代备份产品--BrightStor,定位直指中高端市场,也具有不错的性能。 选购备份软件时,应该根据不同的用户需要选择合适的产品,理想的网络备份软件系统 应该具备以下功能: 集中式管理 网络存储备份管理系统对整个网络的数据进行管理。利用集中式管理工具的帮助,系统 管理员可对全网的备份策略进行统一管理,备份服务器可以监控所有机器的备份作业,也可 以修改备份策略,并可即时浏览所有目录。所有数据可以备份到同备份服务器或应用服务器 相连的任意一台磁带库内。 全自动的备份 备份软件系统应该能够根据用户的实际需求,定义需要备份的数据,然后以图形界面方 式根据需要设置备份时间表,备份系统将自动启动备份作业,无需人工干预。这个自动备份 作业是可自定的,包括一次备份作业、每周的某几日、每月的第几天等项目。设定好计划后, 备份作业就会按计划自动进行。 数据库备份和恢复 在许多人的观念里,数据库和文件还是一个概念。当然,如果你的数据库系统是基于文 件系统的,当然可以用备份文件的方法备份数据库。但发展至今,数据库系统已经相当复杂 和庞大,再用文件的备份方式来备份数据库已不适用。是否能够将需要的数据从庞大的数据 库文件中抽取出来进行备份,是网络备份系统是否先进的标志之一。 在线式的索引 备份系统应为每天的备份在服务器中建立在线式的索引,当用户需要恢复时,只需点取 在线式索引中需要恢复的文件或数据,该系统就会自动进行文件的恢复。 归档管理 用户可以按项目、时间定期对所有数据进行有效的归档处理。提供统一的 Open Tape Format 数据存储格式从而保证所有的应用数据由一个统一的数据格式作为永久的保存,保 证数据的永久可利用性。 有效的媒体管理
324
备份系统对每一个用于作备份的磁带自动加入一个电子标签,同时在软件中提供了识别 标签的功能,如果磁带外面的标签脱落,只需执行这一功能,就会迅速知道该磁带的内容。 满足系统不断增加的需求 备份软件必须能支持多平台系统,当网络上连接上其它的应用服务器时,对于网络存储 管理系统来说,只需在其上安装支持这种服务器的客户端软件即可将数据备份到磁带库或光 盘库中。
网站浏览器支持 网站浏览器支持是指能否够通过 WEB(就是 WWW,俗称互联网)手段对 NAS 产品进行管 理,以及管理时使用的浏览器类型。绝大部分的 NAS 产品都支持 WEB 管理,这样的好处是管 理方便,用户在任何地方只要能够上网就可以轻松的管理 NAS 设备。 目前 NAS 产品支持的常用浏览器有微软的 IE(Internet Explorer)浏览器以及网景公 司的 Netscape 浏览器。 网络服务 网络服务是指 NAS 产品在运行时系统能够提供何种服务。典型的网络服务有 DHCP、DNS、 FTP、Telnet、WINS、SMTP 等。 DHCP DHCP 的全名是“Dynamic Host Configuration Protocol”,即动态主机配置协议。在 使用 DHCP 的网络里,用户的计算机可以从 DHCP 服务器那里获得上网的参数,几乎不需要做 任何手工的配置就可以上网。 一般情况下,DHCP 服务器会尽量保持每台计算机使用同一个 IP 地址上网。如果计算机长时间没有上网或配置为使用静态地址上网,DHCP 服务器就会把 这个地址分配给其他计算机。 WINS WINS 是“Windows Internet Name Service”的简称,中文为 Windows 网际命名服务, WINS 服务器主要用于 NetBIOS 名字(计算机名称)服务,它处理的是 NetBIOS 计算机名 (Computer Name),所以也被称为 NetBIOS 名字服务器(NBNS,NetBIOS Name Server)。WINS 服务器可以登记 WINS-enabled 工作站(下面简称为“WINS 工作站”)的计算机名、IP 地址、 DNS 域名等数据,当工作站查询名字时,它又可以将这些数据提供给工作站。 DNS DNS,Domain Name System 或者 Domain Name Service(域名系统或者余名服务)。域 名系统为 Internet 上的主机分配域名地址和 IP 地址。用户使用域名地址,该系统就会自动 把域名地址转为 IP 地址。域名服务是运行域名系统的 Internet 工具。执行域名服务的服务 器称之为 DNS 服务器,通过 DNS 服务器来应答域名服务的查询。 FTP 文件传输协议 FTP(File Transfer Protocol)是 Internet 传统的服务之一。FTP 使用户
325
能在两个联网的计算机之间传输文件,它是 Internet 传递文件最主要的方法。使用匿名 (Anonymous)FTP, 用户可以免费获取 Internet 丰富的资源。除此之外,FTP 还提供登录、 目录查询、文件操作及其他会话控制功能。 SMTP SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到 目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP 协议属于 TCP/IP 协议族,它 帮助每台计算机在发送或中转信件时找到下一个目的地。通过 SMTP 协议所指定的服务器, 存储工程师就可以把 E-mail 寄到收信人的服务器上了,整个过程只要几分钟。SMTP 服务器 则是遵循 SMTP 协议的发送邮件服务器,用来发送或中转你发出的电子邮件。 Telnet 有的时候存储工程师需要运行一些很大的程序,而自己的 PC 又达不到运行这个程序所 必须的配置,在这种情况下,存储工程师可以通过网络连接上一台功能强大的计算机,并且 把自己的 PC 模拟成那台计算机的终端,进而达到在该计算机上运行程序的目的。这种利用 网络远程登录到其他计算机上,并且以虚拟终端方式遥控程序运行的做法就是 TELNET。随 着计算机硬件的发展,目前 TELNET 在一般网络用户中已经不是很普遍了,但是对于网络管 理员来说,它仍然是个得力助手。
网络安全 网络安全是指网络系统的硬件、软件及其系统中的数据受到保护,不受偶然的或者恶 意的原因而遭到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。 网络安全实际上包括两部分:网络的安全和主机系统的安全。网络安全主要通过设置防 火墙来实现,也可以考虑在路由器上设置一些数据包过滤的方法防止来自 Internet 上的黑 客的攻击。至于系统的安全则需根据不同的操作系统来修改相关的系统文件,合理设置用户 权限和文件属性。 NAS 产品的网络安全应具有以下四个方面的特征: 保密性:信息不泄露给非授权用户、实体或过程,或供其利用的特性。 完整性: 数据未经授权不能进行改变的特性。即信息在存储或传输过程中保持不被修 改、不被破坏和丢失的特性。 可用性:可被授权实体访问并按需求使用的特性。即当需要时能否存取所需的信息。例 如网络环境下拒绝服务、破坏网络和有关系统的正常运行等都属于对可用性的攻击; 可控性:对信息的传播及内容具有控制能力。
认证 认证的官方含义是:由可以充分信任的第三方证实某一经鉴定的产品或服务符合特定 标准或规范性文件的活动。NAS 产品的认证通常是指是否通过国际上通用的安全标准。
326
常见的认证有以下几个: 1. FCC 认证 FCC ( Federal Communications Commission , 美国联邦通信委员会)通过控制无线 电广播、电视、电信、卫星和电缆来协调国内和国际的通信。 2.CSA 认证 CSA(Canadian Standards Association)提供对机械、建材、电器、电脑设备、办公 设备、环保、医疗防火安全、运动及娱乐等方面的所有类型的产品提供安全认证。 3. CE 认证 CE(CONFORMITE EUROPEENNE) 提供产品是否符合有关欧洲指令规定的主要要求 (Essential Requirements)。 4.TUV 认证 TUV 提供对无线电及通讯类产品认证的咨询服务。 5.UL 认证 UL(Underwriter Laboratories Inc.)采用科学的测试方法来研究确定各种材料、装 置、产品、设备、建筑等对生命、财产有无危害和危害的程度;确定、编写、发行相应的标 准和有助于减少及防止造成生命财产受到损失的资料,同时开展实情调研业务。
NAS NAS 是英文“Network Attached Storage”的缩写, 中文意思是“网络附加存储”。按 字面简单说就是连接在网络上, 具备资料存储功能的装置,因此也称为“网络存储器”或 者“网络磁盘阵列”。 从结构上讲,NAS 是功能单一的精简型电脑,因此在架构上不像个人电脑那么复杂,在 外观上就像家电产品,只需电源与简单的控制钮, 结构图如下:
327
NAS 是一种专业的网络文件存储及文件备份设备,它是基于 LAN (局域网) 的,按照 TCP/IP 协议进行通信,以文件的 I/O(输入/输出)方式进行数据传输。在 LAN 环境下,NAS 已经完 全可以实现异构平台之间的数据级共享,比如 NT、UNIX 等平台的共享。 一个 NAS 系统包括处理器,文件服务管理模块和多个硬盘驱动器(用于数据的存储)。 NAS 可以应用在任何的网络环境当中。主服务器和客户端可以非常方便地在 NAS 上存取任意 格式的文件,包括 SMB 格式(Windows)NFS 格式(Unix, Linux)和 CIFS(Common Internet File System)格式等等。典型的 NAS 的网络结构如下图所示:
DAS DAS 即直连方式存储,英文全称是 Direct Attached Storage。中文翻译成“直接附加 存储”。顾名思义,在这种方式中,存储设备是通过电缆(通常是 SCSI 接口电缆)直接到 服务器的。I/O(输入/输入)请求直接发送到存储设备。DAS,也可称为 SAS(Server-Attached Storage,服务器附加存储)。它依赖于服务器,其本身是硬件的堆叠,不带有任何存储操 作系统。 DAS 的适用环境为: 1) 服务器在地理分布上很分散,通过 SAN(存储区域网络)或 NAS(网络直接存储) 在它们之间进行互连非常困难时(商店或银行的分支便是一个典型的例子);
328
2) 存储系统必须被直接连接到应用服务器(如 Microsoft Cluster Server 或某些数 据库使用的“原始分区”)上时; 3) 包括许多数据库应用和应用服务器在内的应用,它们需要直接连接到存储器上,群 件应用和一些邮件服务也包括在内。 典型 DAS 结构如图所示:
对于多个服务器或多台 PC 的环境,使用 DAS 方式设备的初始费用可能比较低,可是这 种连接方式下,每台 PC 或服务器单独拥有自己的存储磁盘,容量的再分配困难;对于整个 环境下的存储系统管理,工作烦琐而重复,没有集中管理解决方案。所以整体的拥有成本 (TCO)较高。目前 DAS 基本被 NAS 所代替。下面是 DAS 与 NAS 的比较。
329
330