一种基于SAN架构的存储网络系统的设计与实现
张建中1,陈松乔1,方 正2,王书方2
(1. 中南大学 信息科学与工程学院,湖南 长沙,410083;
2. 中南大学 图书馆,湖南 长沙,410083)
摘 要:针对数字图书馆对网络存储新的需求,分析传统的DAS,NAS和先进的SAN互联网络存储技术,比较三者的技术差别。运用系统可靠性理论分析SAN架构的冗余技术及其主要的性能指标体系,论证SAN的多链路并行交换技术的优越性。以此为基础,提出并设计SAN架构“双塔型”网络存储解决方案,并根据中南大学数字图书馆资源建设情况,将此方案投入实际上线运行。经过2年运行结果表明,所设计的SAN架构“双塔型”网络存储解决方案与传统的DAS和NAS比较,突破了响应速度、系统安全和系统容量三大瓶颈。
关键词:数字图书馆;网络存储;SAN架构;可靠性分析;工程设计
中图分类号:TP393 文献标识码:A 文章编号:1672-7207(2008)02-0350-06
Design and realization of a network-storage system based on SAN
ZHANG Jian-zhong1, CHEN Song-qiao1, FANG Zheng2, WANG Shu-fang2
(1. School of Information Science and Engineering, Central South University,Changsha 410083, China;
2. Library of Central South University, Changsha 410083, China)
Abstract: To satisfy the new demands of network-storage in digital library, the interconnection technology of Network-Storage for traditional DAS, NAS and advanced SAN, and the differences between them were analyzed and compared. The redundant technology of the SAN construction and its main performance index system were analyzed based on system reliable theory, and the superiority of the multi-links parallel exchange technology for SAN was given. According to above works, a “twin-tower” type of network-storage on SAN was designed and realized in the library of Central South University. The runs for 2 years show that the frame has the advantages of response speed, system safety and capacity over traditional DAS and NAS.
Key words: digital library; network-storage; SAN construction; reliable analyse; project design
数字图书馆底部的基础架构是一族运行在高速网络中、软件与硬件协同、可跨库跨平台的数字化文献资源群体。数字图书馆的一般过程是用户通过元数据(对象属性的描述体)来调动有价值的图像、文本、语音、视频、软件和科学数据等多种资源对象,实现文献收集、加工、发布、检索和原文可视服务等功能。这个过程中,网络存储是核心环节。近10年来,数字化文献的持续增长和多元化需求对网络存储的能力提出了新的挑战,传统的存储模式如DAS(Direct Attach Storage)和NAS (Network Attach Storage)已经难以适应这种需求,必须研究和开发一种新的网络存储方法,能够对存储设备和数据实行集中的管理,提供一种独立于服务器、统一、高可用性和扩展性的网络存储框架[1]。因此,存储区域网络(Storage Area Network,简称SAN)便应运而生。
1 DAS,NAS与SAN的对比分析
DAS和NAS是传统存储中具有代表性的2种模式。DAS一般没有内置服务器,受单台外置服务器直接控制,需要占据服务器大量的CPU时间来处理SCSI指令和数据块。NAS将计算与存储合为一体,可以在以太网中独立完成文件级的服务。NAS在很多方面优于DAS,某些方面优于SAN。在许多场合,NAS与SAN具有互补性。DAS和NAS共有的缺陷在于,同一个以太网环境下的存储设备之间没有直接的通信链路,彼此分立,基本处于单机联网作业方式,自然地形成局域网中的信息孤岛。若DAS和NAS通过以太网通信,则又将消耗较大的CPU和网络带宽资源。此外,DAS和NAS不能满足多元化的需求。国内图书馆以往主要采用DAS和NAS技术来搭建存储架构,近年来,许多大型数字图书馆项目的核心都采用SAN技术。
SAN采用集中式存储策略,在服务器与存储设备之间通过交换设备进行连接,将多级存储器合并成一个集中管理的网络存储基础设施,由SAN取代服务器实施对整个存储过程的控制和管理,而服务器只承担监督工作,这样,减少了对服务器处理时间的占 用,服务器可以腾出更多的CPU时间去处理客户的服务请求,提高了服务器的吞吐能力,并且SAN中的存储设备之间可以不通过服务器进行相互备份,减少了因网络备份而对网络带宽的占用量。另外,SAN是以光纤通道(Fiber Channel,FC)技术为基础的,FC可以提供高达4 Gb/s的传输速率和长达10 km的传输距离,使SAN具有良好的网络性能。
SAN可以提供比传统网络存储模式更好的可扩展性、高可用性、容错性以及可管理性等品质,将成为多媒体信息流存储、大数据量的快速网络备份、数据仓库以及决策支持等应用领域中较理想的存储 媒介。
SAN是一种专注于信息存储、访问、管理的一个高速的子网,是近年兴起的一种全新的存储理念。这个子网中的设备可以减小主网流量,是一种传统SCSI技术与网络技术相结合的产物。SAN与服务器、客户机的数据通信是通过SCSI命令而非TCP/IP,数据处理是“块级”(blocklevel),易于实现对数据库的支持。
2 SAN存储系统设计
2.1 FC SAN与IP SAN的比较
SAN的主流技术目前为FC SAN与IP SAN 2种模式,FC(Fiber Channel)和iSCSI(Internet SCSI)是目前搭建SAN的2个主流协议,二者本质上都是在网络报文中传输SCSI指令和业务数据来实现数据传输的功能,只是传输方式和介质不一样[2]。FC是在SCSI-II基础上发展起来的一个传输协议,为F0到F4 5个层 次,大致对应于OSI的物理层到运输层。FC顶端有一个高层映射协议ULP(Upper-layer Protocol),定义了FC相对于IP和SCSI以及其他上层协议之间的接 口[3]。可见FC不能直接与IP通信,需要通过ULP接口与FC-IP转换网关进行报文转换。但是,FC处于OSI较底层,协议集简洁,减轻了CPU的占用量,数据处理速度快。对应于OSI,iSCSI[4]可以大致分为5层,最高端为SCSI,最低端为IP,具有流量控制机制、地址机制、超时重发机制等功能。但是,iSCSI包含IP协议,协议集比较庞杂,数据处理速度比较慢。此 外,FC的光纤通道受到距离的限制,一般不超过 10 km,而iSCSI的通信通道(光纤或其他介质)没有距离的限制。显然,对于局域网,FC是比iSCSI更好的网络互连协议;存储网络需要跨越远距离时,或许iSCSI比FC更合适,IP SAN更有利于在广域网中用较低成本来消除SAN信息孤岛。显而易见,IP SAN与FC SAN各有自己的长处和短处。目前,2个协议的整合工作正在展开,已经推出的协议和产品主要有FCIP[5](网桥)、iFCP[6](网关)等。
SAN架构具有很多优点,例如,SAN具有很强的扩展性,不仅内部的容量扩充,多个SAN之间也具有很好的互联性,甚至IP SAN与FC SAN 2种不同的模式也可以在TCP/IP的基础上互联。再如包容性,SAN有足够的能力包容DAS和NAS,这一方面可以利用原有设备,保护投资;另一方面,也可以在SAN的统一架构下,充分发挥DAS和NAS各自的长处。SAN架构的核心环节是阵列内部的光纤通道和外部的光纤交换设备。
2.2 SAN交换并行架构的可靠性分析
可靠性是指部件、元件、产品或系统在规定的环境下、规定的时间内、规定条件下无故障地完成其规定功能的概率[7]。SAN的性能可以用一组指标来衡量,但是,可靠性是这组指标中最重要的。这里,利用可靠性R指标,结合存储设备平均无故障工作时间指标MTBF(Mean Time Between Failures),对SAN交换架构进行讨论。
FC SAN和IP SAN的典型拓扑分别如图1和图2所示,包含存储、交换、主机和LAN 4个层次,可以看出二者结构非常类似。因为重点是考察存储系 统,并提供为存储交换设计的依据,因此,为了方便讨论,合理地假定系统存在的环境和条件都非常 好,例如LAN和电源等其他系统的可靠性恒为1,即。存储系统则具有不同的可靠性,即。
如果一个系统A由多个子系统组成,A的功能由子系统的功能集合完成时,子系统的可靠性分别为概率Pi,则全系统的可靠性取决于子系统的组合方 式。图1和图2中,主机层到存储层,都使用了2台交换机。在计算和数据交换的逻辑过程中,1台主机通过1台交换机访问存储层中任何一套设备,可以看作是串联模型,同时,通过2台交换机访问存储层中任何一套设备可以看作是并联模型。因此,主机层与存储层之间的关系可以简化为任务型的串联和并联模型。这2种方式在概率论和可靠性理论中都有严格的数学推导。对于n个子系统串联的系统,其可靠性的概率为[8]:
图 1 FC SAN结构图
Fig.1 Structure of FC SAN
图 2 IP SAN 结构图
Fig.2 Structure of IP SAN
当各个子系统可靠性为等概率时,串联系统的可靠性为:
同理,n个子系统的并联系统,其可靠性为:
子系统可靠性为等概率时,并联系统的可靠性为:
因为与都是大于1的数,故式(5)的结果大于 1。可靠性R指标是时间t的函数,无论什么系统,随着时间的推移,R将会减小,即可靠性降低。当P1与P2都非常大时,式(5)比值趋近1,而当P1与P2 都比较小时,式(5)比值逐渐趋大。可见长期运行之 后,并联的可靠性远远高于串联,而且并联的支数越多,可靠性越高。例如,交换机的可靠性一般高于0.9,若干年后,下降至0.5,假定系统的可靠性为等概率,则SAN结构的并联与串联方式的可靠性对比见表1。
表 1 SAN结构的并联与串联方式的可靠性对比
Table 1 Comparison between parallel and series connection modes based on SAN
从表1可以看出,并联的可靠性均比串联的可靠性高,随着时间推移,这种变化关系更加明显。当系统的可靠性为不等概率时同样可得出相同的结论。并联的等效方式还可以称为冗余方式,实践证明冗余技术在保证系统可靠运行方面发挥了很大作用。此 外,并联技术也是一种并行计算的技术,同时也具有流量分配、负载均衡等优点。实际上,网络存储的其他环节,例如磁盘阵列、服务器、电源等设备的内部,也有大量的冗余设计,以提高可靠性。一个阵列光纤通道的实验表明,并联比串联的数据读的传输率提高12%~51%,而响应时间下降18%~33%。当然,这也并非并联回路越多越好,当并联数增加到一定程度时,由于受PCI总线的带宽限制,会形成瓶颈,阻碍RAID的传输率的进一步提高[9]。设备或系统经常用平均无故障时间来表达总体可靠性,例如EMC公司某磁盘阵列中端产品的平均无故障时间大于8万h,高端产品可高达12万h。当然,不同级别的产品,部件冗余量不同,需要专门的微代码设计,价格差别很大。可见,并联的可靠性恒定大于串联的可靠性。
2.3 系统需求分析
中南大学图书馆承担全校教学科研的文献任 务,学校启动了“数字图书馆”建设项目,其目标是要打造一个既能反映学校学科特色、又具有国内一流水平的电子资源管理和运营中心;而实现这一目标的首要任务就是建设一个高水平的存储系统平台,这是由中南大学图书馆特殊的“资源状况”与复杂的“应用需求”等两个方面的因素所决定的。
中南大学图书馆的电子资源主要分为两类:一类是引进的大量电子书、刊和专业数据库,它们统称为“引进资源”;另一类是自建的各类专业数据库,它们统称为“自建资源”。上述两类资源不仅总量十分巨大,而且增长非常迅猛,有些单一数据库的月增长量就达到几GB;特别是在自建资源方面,中南大学图书馆有两大独特之处:一是经过20多年的建设,已建立一批具有一定规模、一定学科特色的电子资源文献数据库;二是能够为校外其他专家学者提供快捷方便的服务,为地区和行业提供文献保障。
由此可见,总量巨大、增长迅速的各类电子资源,特别是其中的自建资源,对中南大学图书馆的后台存储设施提出了严格要求。为此,构架一个快速、安全,为了确保学校教学和科研的文献信息资源需求,具有实际应用需求的存储平台势在必行。
2.4 系统设计
2.4.1 系统建设所遵循的原则
a. 扩展性好。采用先进通道的光纤技术,可在光纤网络上增加光纤设备,满足系统扩展需要。
b. 传输距离远。由于中南大学图书馆分散在长沙市5个校区,确保系统有足够的传输距离,单模光纤传输距离不低于10 km,通过TCP/IP协议传输不受距离限制,以便实现异地容灾。
c. 传输速率高。环路带宽不低于200 MB/s,提升主机系统带宽;由于大量的数据存在于高速的SAN存储池中,因此,必须减小服务器与客户机之间的通讯带宽。
d. 备份效率高。要备份的数据通过SAN的传输速率(≥200 MB/s)到其他存储设备,少量的控制信息通过TCP/IP协议传输,以节省TCP/IP网络带宽资源。
e. 配置灵活。通过相应软件可实现基于SAN的网络文件共享,文件访问效率高。
f. 安全性好。可通过光纤交换机的ZOOMING功能实现,交换机端口的访问控制。通过磁盘阵列的LUN masking 实现LUN一级的安全隔离。通过软件实现文件共享访问控制。
g. 硬件的完全冗余。所有硬件设备具备冗余结构。确保2台数据处理小机互为集群,一旦处于活动状态的主机发生故障,另一台主机将自动接管其全部任务,在没有故障的状态下分别执行各自任务。
2.4.2 系统设计
按照系统的安全性、信息资源的类型、网络性能和应用方式,不采用磁带库等备份方式。这是由于这种方式对于在线提供服务,不具备及时响应的特点,而且资源还没有达到闲置状态,为此,经过反复分析论证,决定自行设计构建FC SAN“双塔型”存储网络系统(见图3),容量达到16 TB,其功能描述如下:
第1套(A塔)配载了69块146 GB光纤通道硬盘(其中1块为全局热备盘),总存储空间为10 TB。它所存储的资源包括引进资源和自建资源。
第2套(B塔)配载了42块146 GB光纤通道硬盘(其中1块为全局热备盘),总存储空间为6 TB。它专门负责各种自建资源的备份,这些资源包括:有色金属文献库,冶金工程重点学科导航库,楹联数据库,专家学者数据库以及正在筹建中的医学、土木工程、桥梁隧道等专业数据库。
在系统连接方式上,每套双存储控制器分别与2台16口光纤交换机相连,再通过2台交换机与前端主机(2台数据库服务器加6台应用服务器)的双HBA卡分别相连,从而构建了双塔与前端主机之间“完全冗余”的光纤通道。与此同时,双塔之间还设有一条数据线,该数据线不通过光纤交换机,而是直接连通2套存储控制器,从而形成了一路传输速率更高的数据“直通车”。
在系统运行过程中,双塔之间的关系是既各负其责,又相互支持。具体而言,一方面,A塔负责“引进资源”的管理,B塔负责“自建资源”的管理,前端主机对两类资源的访问被分别指向A塔和B塔,从而使巨大的访问量在双方之间均衡负担;另一方面,一旦B塔发生故障,A塔将接管B塔的全部进程,独自承担对两类资源的存储管理任务,并为B塔的数据恢复提供来源,而一旦A塔发生故障,B塔将在继续承担自建资源管理任务的同时,为A塔内自建资源的恢复提供数据来源。
除此以外,A塔还承担着一个独特的“自建资源更新与备份传输”使命。自建资源是一个不断增长的过程,新的自建资源在前端主机生成后,首先存入A塔;然后,由A塔经数据线传输至B塔,使B塔中的自建资源数据库得到即时更新。上述过程在相应管理软件的帮助下自动完成。软件会对A塔中的自建资源数据库进行动态监测,一旦发现其中的数据变化达到1 GB的量级,就会自动开启从A塔向B塔的备份传输过程。该系统主要设备及管理软件见表2。
2.4.3 拓扑结构、数据运行及数据备份过程
系统采用3层架构:存储层、存储交换层和应 用服务层(见图1)。数据运行及数据备份过程如图3所示。
图3 FC SAN运行系统图
Fig.3 Data flow of FC SAN system
表2 SAN 存储网络系统主要设备
Table 2 Main equipment parts for SAN system
3 系统实现
上述CX600双塔方案在中南大学图书馆正式上线。到目前为止,该方案已稳定运行了2年多,方案的实施使中南大学图书馆在电子资源的存储和管理方面一举突破了系统容量、响应速度和数据安全三大 瓶颈。
在系统容量方面,双塔满配后总空间可达35 TB,这为中南大学图书馆各类电子资源的迅猛增长奠定了坚实的基础。系统上线后,资源引进和自建步伐已大大加快,过去几个月中陆续引进了一大批中外文电子期刊、数据库与电子书,并将馆藏的237万册图书全面数字化,以最终实现全部馆藏资源“开放、共享”的数字图书馆建设目标。
在响应速度方面,存储系统的表现同样很出 色。从设备性能看,单台CX600就能够达到6万次/s的I/O处理能力并可提供680 MB/s的可持续带宽,双CX600分别支持自建资源与引进资源,进一步分担了访问流量,从而使存储系统对应用指令的响应更加快捷。从传输通道看,CX600支持2 GB光纤通道技术,它们与光纤交换机共同构建了一个2 GB的光纤SAN架构,SAN内部的带宽资源已经非常充裕,在此基础上,双塔之间的心跳线使阵列间的数据备份独立于SAN,这种设计思路进一步减轻了SAN内部的数据传输压力,使CX600与前端主机之间的数据传输更加畅通无阻。
在数据安全性与系统可用性方面,特别是在自建资源的安全保护方面,双塔方案的优势最为突出。双塔设计的最主要目的是确保自建资源的在线备份与绝对安全,2套CX600本身可用性很强,它们配合之 后,更确保了关键数据资源的热备份与随时可用。新存储方案的上线,使中南大学数字图书馆的服务内容和服务能力都获得了本质性的提高,从而在很大程度上改变了图书馆的服务方式。由于在线资源总量不断增长,服务响应速度明显提高,读者已经越来越倾向于通过在线方式而不是当面方式来接受信息服务。单数据库的日均访问量已超过1 000人,平均日在线3 000多人,高峰时段达到5 000多人。
4 结 论
a. 对DAS,NAS与SAN存储系统分别进行比较分析,最终选择FC SAN进行存储网络系统设计。
b. 以中南大学图书馆为例,根据资源特性和实际应用需求设计了FC SAN“双塔型”网络存储系统,并投入实际上线运行。运行结果表明,双塔方案达到系统设计要求,突破了系统速度、系统安全和系统容量三大瓶颈。
参考文献:
[1] Gibson G, Meter R. Network attached storage architecture[J]. Communication of the ACM, 2000, 43(11): 37-45.
[2] 杨 进, 魏轶伟, 贾惠波, 等. 存储区域网的性能测试[J]. 计算机工程, 2003, 29(16): 43-44.
YANG Jin, WEI Yi-wei, JIA Hui-bo, et al. Performance testing of storage area network[J]. Computer Engineering, 2003, 29(16): 43-44.
[3] 张雪冰, 张延园. SAN异构存储共享系统实现技术研究[J]. 计算机工程, 2006, 32(3): 105-106.
ZHANG Xue-bing, ZHANG Yan-yuan. Study of SAN heterogeneous storage sharing system[J]. Computer Engineering, 2006, 32(3): 105-106.
[4] 黄建忠, 谢长生, 朱光喜, 等. 一种基于iSCSI的对象存储安全系统的设计与实现[J]. 计算机科学, 2007, 34(4): 70-71.
HUANG Jian-zhong, XIE Chang-sheng, ZHU Guang-xi, et al. Design and implementation of iSCSI-based object storage security system[J]. Computer Science, 2007, 34(4): 70-71.
[5] 韩德志, 鄢 让, 傅湘林. iSCSI协议及SAN互联技术[J]. 计算机应用研究, 2003(8): 85-86.
HAN De-zhi, YAN Rang, FU Xiang-lin. The interconnecting technology of iSCSI and SAN[J]. Application Research of Computers, 2003(8): 85-86.
[6] 苏 文, 王忠明. IP存储技术研究[J]. 计算机应用研究, 2004(6): 241-242.
SU Wen, WANG Zhong-min. Research of the IP storage technology[J]. Application Research of Computers, 2004(6): 241-242.
[7] 郭永基. 可靠性工程原理[M]. 北京: 清华大学出版社, 2002.
GUO Yong-ji. Principles of reliability engineering[M]. Beijing: Tsinghua University Press, 2002.
[8] 复旦大学. 概率论: 第1册[M]. 北京: 人民教育出版社, 1979.
Fudan University. Probability: Vol.1[M]. Beijing: Peoples Education Press, 1979.
[9] 田 磊, 冯 丹. 存储区域网中磁盘阵列光纤通道接口的设计与实现[J]. 计算机工程与科学, 2005, 27(7): 106-108.
TIAN Lei, FENG Dan. Design and implementation of the fibre channel interface for FC SAN-Attached RAID[J]. Computer Engineering & Science, 2005, 27(7): 106-108.
收稿日期:2007-07-29;修回日期:2007-09-13
基金项目:国家自然科学基金资助项目(50374077)
通信作者:张建中(1955-),男,河北崇礼人,教授,博士研究生,从事数字图书馆、信息管理研究;电话:0731-8836750;E-mail: jzzhang@mail.csu.edu.cn