本文共计14529个文字,预计阅读时间需要59分钟。
数据中心存储方案范文第1篇
[关键词]数字档案;信息存储;灾难恢复
前言
近年来,随着我国科技水平的不断发展和计算机信息技术的迅猛进步,我国档案信息的存储模式也发生了翻天覆地的变化,传统的纸质档案存储模式已经逐渐被现代化的数字档案信息存储模式代替,不断继承和发展的传统存储模式和灾难恢复方式已经不能适应时代的需求,本文主要数字档案信息存储入手,探讨数字档案信息存储的方式、容灾备份方式以及数字信息档案的恢复方式,以提高我国数字档案信息存储的进步。
1.数字档案信息存储的方式
根据不同的应用目的,数字档案的信息存储可以分为离线存储以及在线存储。离线存储主要采用光盘、磁带、硬盘等方式,而在线存储主要指磁盘阵列的存储方式。除此之外,根据应用环境的不同,我们可以将存储方式分为网络存储系统以及单机存储系统。
1.1在线数字档案信息存储方式
近年来,随着计算机信息技术的发展,人们对于数字档案信息的存储方式有利更深刻的了解,为了保证存储信息的可靠性,以及计算机系统的正常运转,磁盘阵列已经变成最为可靠的存储方式中的一种,具有比其他方式更高的安全性以及可靠性。因此,磁盘阵列已经成为海量存储中最重要的一种存储方式应用于各种服务器。
1.2离线环境下的数字档案信息档案存储方式
根据常用的存储方式的不同,单机环境下的数字信息存储方式可分为电学、光学以及磁性存储载体。电学存储的主要类型有数码卡以及U盘等。而光学存储的主要类型为BD类、DVD类以及CD类。
存储方式中的磁盘主要指硬盘,它具有存储速度快、信息存储容量大以及更改内容方便的优点。但是,它也具有一些缺点,例如,需要安装在机器中,不能在没有硬件设备的情况下保存,它的平均使用寿命也比较短,一般在五到七年不等,而且它只能在在线的情况下才能作为存储设备保存数字信息档案。而U盘则具有体积小携带方便、可脱机保存的优点,但是缺点则是其容量一般都较小,寿命只有短短的三到五年,只能用来临时性地存储数字信息档案。对于磁盘和光盘来说,其寿命一般较长,都会到达十年以上,是长期存放数字档案信息的良好载体。
2.数字档案的容灾备份方式
由于意外的必然性,数字档案信息存储系统很可能会由于自然或者人为的原因而出现故障。科学工作者在对计算机信息技术和存储方式做了深入的研究以后,找出了数字档案信息保护的措施,也就是采用容灾备份的方式保护数字信息档案。
2.1数字档案容灾备份的主要技术
科研工作者将容灾备份技术主要分为以下几种:持续性的数据保护容灾技术、虚拟化的容灾技术、存储系统型异地容灾、主机型远程容灾等。这些技术之所以会受到人们的青睐是因为一旦出现意外,它们可以快速地实现存储数据的恢复,每一种技术都有自己的优缺点,综合性能比较高的是持续数据保护容灾技术,而如果要实现数字档案信息的长期存储则还要在机器的后端加带光盘库或者是磁带库。
2.2容灾备份的主要方法
容灾备份的方式有很多,以地域的不同来划分可以分为两地三中心备份、异地备份、同城备份。其中的两地是说异地和本地,三中心是指异地灾备中心、同城灾备中心以及生产中心。用户应该根据自己具体的用途选择不同的容灾方式。如果数字档案需要经常使用则应该采取近线或者在线备份,如果数字档案信息一般不会被用到则应该选择离线存储的方式。如果是大型的企业要进行容灾备份工作,则应该使用异地备份或者是同城备份的方式。如果数字信息档案非常重要,则应该使用三中心两地的容灾备份方式,例如电讯行业、金融行业以及银行行业都应该使用这种备份方式。
3.数字档案的信息数据恢复方法
3.1数字信息恢复的主要技术类型
数据档案信息恢复的主要类型有数据库恢复方法、软件恢复方法以及硬件恢复方法等。数据库恢复方法的主要使用对象是数据库的恢复,一般使用专用软件对数据库和服务器进行恢复。而软件恢复技术主要用来恢复由人为因素或者病毒的破坏而引起的误分区、误格式化、误删除文件、操作系统的破坏以及文件的丢失等问题。遇到这样的问题可以使用数据恢复软件对数据进行恢复。而硬件恢复技术则是用于硬件的固件损坏的修复,例如,磁头、硬盘的电路出现问题等,可以采用相应的修复技术进行修复。
3.2数据的主要恢复策略
数据恢复在操作层级的规范有两条:一是尽可能对被恢复的载体进行“克隆镜像”,并在此备份上进行恢复操作;二是确信一步操作都是可能退回的,并作好记录。电学载体目前恢复较多的是U盘,而且其使用的数量也越来越大,因此,它是这一类恢复中的主要载体。其恢复方法与流程与硬盘基本相同。对光学载体,首先要确定损坏的程度;其次要选择相应的恢复工具;最后要对恢复的数据进行校验。对磁性载体,首先要确定是哪一类磁性载体;其次要分清是进行物理恢复,还是逻辑恢复;最后要针对以上两点制订出相应的数据恢复方案。例如,对单机的硬盘数据恢复,就有两种恢复方案,一是物理故障的数据恢复,可能是更换磁头,更换控制电路板等。二是逻辑恢复,如各种误操作或病毒破坏造成的故障,主要有恢复操作系统,恢复分区表、恢复文档、破解密码等。
数据中心存储方案范文第2篇
【关键词】DAS;NAS;IP-SAN;iSCSI
基于IP技术的存储区域网络架构,决定数据中心存储系统采用IP-SAN架构:IP-SAN无需过多成本、TCP/IP网络技术成熟、统一标准化、较好的高扩展性和管理人性化等特点,比较适合数据中心所需的高速率、高带宽的存储系统组建。下面将通过前期对学院目前数据中心存在的问题以及当前使用要求指标,制定数据中心存储系统解决方案。
1 制定方案
1.1 需求分析
本课题研究以某学院国家骨干示范建设《小型数据中心存储系统》项目为背景,数据中心的设计目标是现有各通信与计算机实训室终端设备和系统对数据中心快速访问并满足大规模数据存储的现实要求。在建设高容量高性能基础上,数据中心对于异构网络的兼容性即高可用性,并且能够以低成本投入高效能应用的要求。
1.2 方案确定
首先确定网络平台:现有的计算机终端基本配备有网络适配器,有的还是千兆网络适配器。IP网络技术成熟,采用iSCSI协议的IP网络存储系统技术起点高。从存储系统的使用要求来看,基于IP技术的存储系统是我们实现低成本高性能的不二选择。以后千、万兆以太网发展起来后,IP网络传输速率将大大提高。
其次确定网络架构:NAS和SAN两种架构形式都能使用IP网络。前者是基于文件的网络存储和文件备份的存储架构,多见于海量存储、高读写吞吐率等。实现文件集中管理、统一存储,它对IP网络环境没有要求。NAS设备可应用于异构网络环境(如FTTX等)而且位置不受限制[1]。网络附加存储的不足在于没有集中备份数据的功能,不能有效支撑数据库应用,最核心的一点是网络附加存储不能支持块级数据传送,它是面向文件级的。IP-SAN把SCSI映射至TCP/IP之上,能够完成SCSI块数据传送于IP网络之中,它采用的是TCP/IP、SCSI协议,利用IP网等,解决了FC-SAN存在的范围扩展问题[2]。IP-SAN有效地解决了当前的存储设备,尽可能地扩展了存储资源,保障了更多的业务应用;较好地解决了困扰DAS与SAN受限地理范围的问题;能够较为有效地利用以太网以及通过网络管理软件解决运维问题[3]。基于上述,本案宜采用IP-SAN存储架构。
IP-SAN协议的确定:存储区域网络技术大体有FCIP、iFCP以及iSCSI三种,FCIP与iFCP主要是存储区域网络技术从FC通道到IP网络的中间临时使用,但是本课题大致应用于数据存储和传输的存储系统和设备,涉及光纤设备和光纤网络较少,三种协议中,只有iSCSI协议与光纤无关,故iSCSI协议在此采用。服务器中的软件,把SCSI数据打包进IP包里面,而后把这个包传送至目标设备,在IP网络上,再由后者将IP包解包还原为SCSI数据。
2 数据中心存储系统的方案设计
依据IP-SAN结构与iSCSI协议相关标准,存储系统结构:软件部分由iSCSl目标器软件、Web管理软件和iSCSI启动器程序(客户端)三部分组成。用户只需安装并启动iSCSl启动器软件,通过TCP网络,就能访问位于Stroage Server上目标资源,也能够使用Web应用程序,管理与配置这些资源。硬件层面,使用IBM服务器相连于吉比特局域网。作为全部IP-SAN中最重要的设备,Stroage Server使用iSCSI协议,支持DATA存储业务于存储用户。结合数据中心应用的服务对象-用户的实际需求,该设备的磁盘容量不能设计太小,还要兼具合适的扩展、容灾能力,适用于千兆局域网络,能够提供热插拔功能。网络层面,采用吉比特网络。
2.1 选择IP-SAN存储服务器
针对存储系统稳定可用方面的需求,我们选用了IBM公司的X3650 M3系列服务器,安装08网络操作系统,采用SATA硬盘接口,8块500G硬盘,这里面使用1个安装操作系统,1个用来做冗余,RAID 5配置在剩余的6块硬盘上。采用Web存储服务管理软件,为用户提供向导式图形化接口,用来申请、注销iSCSI存储服务。
2.2 客户端
鉴于数据中心目前大部分主机的操作系统安装使用情况,采用微软2000,该的Internet Explorer指明要5.0或更高版本。安装微软操作的客户端,iSCSI使用微软免费启动器程序。
3 存储服务器的磁盘阵列配置
根据需求分析,本数据中心存储系统解决方案采用RAID 5配置。比RAID0高的数据安全性能,比RAID 1高的数据读写性能,使其成为了存储性能、数据安全和存储成本兼顾的存储解决方案。与RAID 1不同的是RAID 5多了一个奇偶效验信息[5]。
存储服务器管理软件当前基本都采用了图形化窗口式的设计,管理员不用登录设备配置管理,这样设备既方便使用又安全。它的工作过程为:机器上启用一个名为Servlet的服务,管理员使用JSP网页请求任务,然后Servlet通过TELNET运行目标器程序,再执行管理员的操作。已运行的目标器程序信息还能由此管理软件保存在硬盘上,并拥有自我恢复功能[6]。
iSCSI协议在兼容性、可扩展性、安全性方面的特点,决定了IP-SAN这种存储架构的发展必将大规模的应用于现代IP网络中。随着千兆级、万兆级局域网的发展,IP-SAN势必取得不亚于FC-SAN的传输速率和高带宽。而采用iSCSI的IP存储区域网络解决方案投入较少,IP网络技术相对成熟、扩张方便和管理容易,适合数据中心高性能高带宽存储业务的要求。在学院小型数据中心存储系统的解决方案中,存储服务器采用WINDOWS平台,以不多的软、硬件投入完成了IP-SAN存储系统的设计,后期还可以对系统功能进行扩展和优化。
【参考文献】
[1]李兆虎.网络存储系统仿真研究综述[J].计算机研究与发展,2012(49).
[2]陈涛,肖侬,刘芳.大规模网络存储系统的数据布局策略研究[J].计算机研究与发展,2009:46-47.
[3]朱洪斌,程杰.数据中心存储网络架构研究[J].电力信息化,2010:22-26.
[4]Chi-Huang Chiu ;Hsien-Tang Lin ;Shyan-Ming Yuan a content delivery system for storage service in cloud environment [EI SCI]International journal of ad hoc and ubiquitous computing.2010,6-8.
数据中心存储方案范文第3篇
EMC Isilon:横向扩展 性能突出
大数据存储不是一类单独的产品,它有很多实现方式。EMC Isilon存储事业部总经理杨兰江概括说,大数据存储应该具有以下一些特性:海量数据存储能力,可轻松管理PB级乃至数十PB的存储容量;具有全局命名空间,所有应用可以看到统一的文件系统视图;支持标准接口,应用无需修改可直接运行,并提供API接口进行面向对象的管理;读写性能优异,聚合带宽高达数GB乃至数十GB;易于管理维护,无需中断业务即可轻松实现动态扩展;基于开放架构,可以运行于任何开放架构的硬件之上;具有多级数据冗余,支持硬件与软件冗余保护,数据具有高可靠性;采用多级存储备份,可灵活支持SSD、SAS、SATA和磁带库的统一管理。
通过与中国用户的接触,杨兰江认为,当前中国用户最迫切需要了解的是大数据存储有哪些分类,而在大数据应用方面面临的最大障碍就是如何在众多平台中找到适合自己的解决方案。
EMC针对不同的应用需求可以提供不同的解决方案:对于能源、媒体、生命科学、医疗影像、GIS、视频监控、HPC应用、某些归档应用等,EMC会首推以Isilon存储为核心的大数据存储解决方案;对于虚拟化以及具有很多小文件的应用,EMC将首推以VNX、XtremIO为核心的大数据存储解决方案;对于大数据分析一类的应用需求,EMC会综合考虑客户的具体需求,推荐Pivotal、Isilon等一体化的解决方案。在此,具体介绍一下EMC用于大数据的横向扩展NAS解决方案——EMC Isilon,其设计目标是简化对大数据存储基础架构的管理,为大数据提供灵活的可扩展平台,进一步提高大数据存储的效率,降低成本。
EMC Isilon存储解决方案主要包括三部分:EMC Isilon平台节点和加速器,可从单个文件系统进行大数据存储,从而服务于 I/O 密集型应用程序、存储和近线归档;EMC Isilon基础架构软件是一个强大的工具,可帮助用户在大数据环境中保护数据、控制成本并优化存储资源和系统性能;EMC Isilon OneFS操作系统可在集群中跨节点智能地整合文件系统、卷管理器和数据保护功能。
杨兰江表示,企业用户选择EMC Isilon的理由可以归纳为以下几点。第一,简化管理,增强易用性。与传统NAS相比,无论未来存储容量、性能增加到何种程度,EMC Isilon的安装、管理和扩展都会保持其简单性。第二,强大的可扩展性。EMC Isilon可以满足非结构化数据的存储和分析需求,单个文件系统和卷中每个集群的容量为18TB~15PB。第三,更高的处理效率,更低的成本。EMC Isilon在单个共享存储池中的利用率超过80%,而EMC Isilon SmartPools软件可进一步优化资源,提供自动存储分层,保证存储的高性能、经济性。第四,灵活的互操作性。EMC Isilon支持众多行业标准,简化工作流。它还提供了API可以向客户和ISV提供OneFS控制接口,提供Isilon集群的自动化、协调和资源调配能力。
EMC Isilon大数据存储解决方案已经在医疗、制造、高校和科研机构中有了许多成功应用。
方案点评
EMC Isilon是一个强大但简单的横向扩展NAS方案,适用于希望投资数据管理而不是单纯存储的企业。当初,EMC将收购来的分布式数据仓库软件厂商Greenplum的软件与Isilon存储组合成了EMC最早的大数据解决方案。用户既可以分开选择Greenplum软件或Isilon存储,也可以选择由Greenplum软件和Isilon存储组成的一体机解决方案。现在,Greenplum软件虽然已归Pivotal公司,但EMC是Pivotal的经销商与合作伙伴,Greenplum与Isilon存储的组合方案并不会因此受到影响。
HDS UCP:统一平台 应用优化
HDS中国区解决方案与专业服务事业部总监陈戈认为,大数据存储应该是一个解决方案:“大数据解决方案是由基础架构的各部件组成的,包含数据存储、计算和分析,而存储是此架构中的一部分。”
大数据的存储类型与传统的存储类型有一定区别:在大数据存储中,更多的应用是一次写、多次读,读得更多是大数据存储的一个特点,而在传统的数据存储中,读写是随机的,由于每个应用不同,其读写的比例也是随机的;大数据存储需要具有横向的可扩展性,并可支持多种接口、多种数据访问协议,便于不同数据进入这个大数据平台。
谈到中国用户在大数据存储应用中最迫切的需求是什么,陈戈认为,中国用户最迫切的需求是如何逐步实现大数据应用,即用户从现有的模式如何过渡到大数据,如何更好地利用大数据进行经营分析。
大数据的经典定义可以归纳为四个“V”,但企业不可能一步到位实现四个“V”,这需要一个循序渐进的过程。海量的、多种类型的数据是一次性全部载入到大数据中,还是通过现有的平台进行数据初选,再导入到大数据平台中,是两种不同的实现途径。“先通过现有平台进行数据初选,再导入到大数据平台,这种方式更适合于客户逐渐实现大数据,可以缩短用户实现大数据应用的时间。”陈戈表示,“大数据主要是非结构化数据。用户可以使用基于对象数据存储的HCP,利用其独特的元数据采集和智能工具,对非结构化文件数据进行管理,实现智能的自动化,这有助于对数据进行深度分析,帮助客户从单一系统中存储、共享、同步、保护、保存、分析和检索文件数据,减少垃圾数据,进而为大数据分析建立一个良好的基础。”
谈到用户在大数据应用中遇到的主要障碍,陈戈表示,一方面,应用软件本身的智能程度是否能满足行业应用需求,应用软件是否已经成型,大数据人才是否具备等,是让大数据应用落地的关键;另一方面,如何抽取数据,放在大数据平台中进行相应的计算是另一个关键问题。
HDS可为所有数据提供单一、可扩展的虚拟化集成平台。HDS推出了“三步”云战略,从基础架构、内容和信息三个层面帮助客户解决目前所遇到的问题。具体来看,通过“基础架构云”,HDS可以帮助客户进行虚拟化和集成管理,实现数据中心的整合;在第二层的“内容云”当中,HDS可以按需提供内容,更可以不受应用限制地进行数据搜索和集成;在第三层的“信息云”中,针对所有数据类型,HDS在其存储平台中融入了分析功能,使客户可以从数据信息中获取洞察力。
HDS提供的UCP for SAP HANA集成了基于大量数据集的创新和内存分析技术,并提供实时的洞察力,从而使当前的信息驱动型企业可以加快其商业决策的速度。陈戈介绍说,UCP for SAP HANA解决方案结合了HDS刀片服务器技术、企业级存储系统和业内领先的网络组件,在这样一个集成的、高性能的硬件平台上可以快速交付SAP下一代内存计算技术。全球已有超过200家客户在使用HDS和SAP的大数据解决方案。
方案点评
其实,HDS的“三步”云战略也可以看成是其大数据战略。HDS借助以UCP为核心的大数据平台,可以帮助企业用户构建从基础架构到内容归档和搜索,直至信息提取和分析的全面、高效的大数据解决方案。HDS的“信息云”直接与大数据相关。UCP是一个集成了计算、存储与网络的一体化平台,它既可以提供像一体机一样的整合性、简单性,又可以提供灵活的选择,连接第三方的设备组件。HDS还通过与包括SAP在内的众多大数据分析类的合作伙伴合作,针对行业定制优质的大数据解决方案。
HP StoreAll :快速部署 极速搜索
中国惠普有限公司企业集团存储产品部存储架构师张楠向记者表示,大数据存储是一套解决方案,应该能够对大数据的Volume、Velocity、Variety和Value四个方面提供全面的支持。
第一,大数据存储要支持海量级的数据存储,比如具有PB级的存储能力。第二,大数据存储要支持更高的存储速度,支持10Gb甚至更高的网络连接。第三,大数据存储要支持数据的多样性,如图片、文本、视频、音频等。第四,大数据最重要的是价值的体现,而为了实现这一点,存储本身应该具备快速、智能的数据检索能力。“在存储的最底层提供最直接、快捷的数据检索。这一过程简单说就是,将上层的数据挖掘工作下移,充分利用存储强大的处理能力和数据识别能力。”张楠举例说,“比如,在秒级的单位内对数据进行极速的搜索, 从几千万甚至上亿个文件中找到目标数据。”
另外,模糊查询能力也是大数据存储不可缺少的功能。智能的模糊查询将为大数据平台提供更加便捷的存储服务能力,使得存储更像一台智能的高速计算设备。
目前,很多中国用户在存储厂商的引导下,片面追求存储的大容量和高性能,而忽略了大数据存储本身应该提供的其他额外属性。中国用户在实施大数据的过程中经常遇到的障碍有以下两方面:第一,无法将存储与大数据平台进行对接;第二,无法充分利用大数据存储的价值,也很难将其运用到实际的业务中。张楠表示,究其原因,主要在于有些大数据存储产品没有开放的接口协议,或没有针对用户的大数据场景进行特别优化,也没有用户容易接受的易用的管理方式等。
惠普在大数据方面可以提供软硬结合的解决方案。惠普在收购Autonomy公司之后,将其软件与惠普的硬件平台进行了整合, 形成了一套完整的大数据解决方案。张楠介绍说,在存储方面,惠普拥有像StoreAll这样的大数据存储平台。借助HP StoreAll硬件平台,用户除了可以实现海量数据的存储和高速数据访问以外,还能实现高级的数据检索功能,对特殊文件进行快速定位。同时,结合HP Autonomy软件的特性,惠普还引入了模糊查询、智能语义库等概念,可以帮助企业用户通过存储底层为上层业务带来所需的大数据业务价值。
如今,闪存不仅在大数据领域,而且在Tier 1存储市场同样占据着十分重要的地位。对于大数据平台来说,闪存可用来提升存储的存取速度,降低I/O的响应时间等。针对那些I/O压力十分明确的大数据平台, SSD可以发挥其效果, 提升存储的整体性能。但是,SSD并不是万能的。因为大部分的数据都是非结构化的,而非结构化数据对I/O的响应要求远远没有对带宽的需求大,所以,让用户花数倍的价格购买SSD存储在目前来看还是比较困难的。从目前情况看,引入闪存的大数据解决方案还不是很普遍。
方案点评
惠普在大数据方面收购了两个软件公司Vertica与Autonomy,然后将它们的软件与原有的硬件平台进行整合,针对结构化和非结构化的数据都可以提供针对性的解决方案。惠普在将大数据软件与存储硬件结合上也进行了尝试,其中一个成功的例子就是HP StoreAll大数据存储平台。HP StoreAll具有以下特点:横向扩展,最大可以扩展到16TB;集成HP Autonomy搜索引擎,可以快速搜索,实现实时大数据的价值;内置对OpenStack的支持,可快速部署;支持文件和对象类型的数据存储。
NetApp:统一架构 无限扩展
如今,企业若想获得成功,就必须想方设法应对具有前所未有的复杂性、高性能的海量数据,并尽可能地管理这些数据,从中发掘更大的商业价值。
对于国内用户来说,无论企业的规模和数据量大小如何,运用大数据的关键在于,企业是否把大数据作为一个真正的工具,去体现企业的差异化,从而提升竞争力。随着越来越智慧的企业信息化的发展,IT不再是束缚企业发展的瓶颈,而是真正地融入了企业自身的业务中。越来越多的公司将大数据成功地运用于企业的商业模式。例如,在欧美,很多企业已经着手将大量资源投放在大数据领域。反观国内,在金融领域,有为数不少的企业通过大数据的分析工具来分析金融的走势,实现风险管理,进行信用卡的追踪等。此外,像零售、制造、电信等行业也已在尝试利用大数据分析工具为企业营销和决策提供支撑。
无论企业现在是否正在使用大数据工具,企业都应全面地考虑自身未来发展的需求,选择一个厂家的平台与之共同发展,这可以有效避免因数据和应用迁移带来的麻烦。
在大数据方面,NetApp能够帮助企业实现数据管理,应对业务挑战的极限,将以数据为导向的洞察转化为有效行动。若想将数据转化为商机,仅仅提升管理能力是不够的,需要彻底转变数据和业务之间的联系模式。NetApp可以帮助企业用户持续管理数据,迅速把握意料之外的新商机,永久保存所有数据,并在灵活、开放的存储平台之上打造属于企业自己的大数据解决方案。
NetApp提供了可高效处理、分析、管理和访问大规模数据的大数据解决方案。NetApp的解决方案组合可划分为分析、带宽和内容三个主要用例,这被称之为大数据的“ABC”基本要素。
具体来看,分析(Analysis)是指针对极大数据集的高效分析。NetApp分析解决方案就是帮助用户深入了解和利用数字世界,将数据转化为高质量的信息,以及提供关于业务的更深入见解,从而帮助企业做出更好的决策。
带宽(Bandwidth)是指适用于数据密集型工作负载的性能。此类解决方案着重于为速度非常快的工作负载提供更高的性能。高带宽应用包括高性能计算(能以极快的速度执行复杂的分析)、用于监控和任务规划的高性能视频流、媒体和娱乐领域中的视频剪辑和播放。
内容(Content)是指无限的安全数据存储。此类解决方案着重于满足可扩展的安全数据存储需求。内容解决方案必须支持存储的无限扩展能力,以便企业可以根据需要存储任意多的数据,并能在需要时找到所需的数据。
NetApp致力于通过一系列解决方案来提供高性能的运算和大数据的应用。2013年11月,NetApp再次更新了E系列家族产品,推出E2700和E5500。该系列产品采用可轻松扩展的设计,适用于要求99.999%的可靠性且稳定、高性能的工作负载。
用户在采购大数据存储产品时,需要注意以下五个方面的问题:大数据存储必须具有向上扩展与向外扩展的能力;架构必须是针对工作负载进行优化的,具有实时处理能力;具有整合的数据保护功能;保证7×24小时运行不中断,可在线进行容量扩展,实施数据迁移等;可以实现服务的自动化。
方案点评
NetApp的技术优势集中体现在其统一存储平台上,从入门级产品到企业级产品,全部基于同一个体系架构和操作系统,不仅部署和使用方便,而且升级和扩展非常简单。当初,NetApp收购LSI Engenio,其中一个重要的原因就是为了大数据。2013年,NetApp不断更新E系列产品线,推出E2700和E5500等。E5500可以支持高IOPS混合工作负载和数据库、高性能文件系统和带宽密集型流等应用,可确保数据的高可用性、完整性和安全性。
曙光XData:高度集成 贴近行业
关于大数据存储,目前业界没有一个通用的定义。曙光信息产业股份有限公司总裁助理兼存储产品线产品总监惠润海从曙光大数据平台和解决方案角度,概括出大数据存储的主要特征。
首先,大数据存储必须支持全类型数据, 包括结构化、半结构化和非结构数据,实现统一数据支持。
其次,存储性能上,一方面,大数据存储要支持海量数据,并且要在保证数据可靠性的基础之上,实现容量与性能的线性扩展;另一方面,为了实现大数据的价值,批处理和实时处理两种措施都需要高性能的数据访问获取能力。
最后,在系统达到一定规模之后,系统的易用性和可管理性也是不可或缺的。
从应用角度来说,目前中国用户在大数据存储应用中最迫切的需求,是如何真正实现用户数据的价值,如何驱动业务发展,实现决策和运营。“从系统构建层面说,要实现数据高性价比的存储和管理,同时满足数据服务的相关需求。”惠润海表示。
针对用户对大数据存储的需求, 曙光推出了像大数据一体机这样的全类型数据分析型产品,同时还基于该产品构建了基于行业的解决方案,以帮助用户实现大数据落地。
“除此之外, 我们还提供了大数据统一数据中心解决方案, 涵盖了像主攻事物处理的DS900、DS800,以及针对文件存储的Parastor等存储产品。我们基于这些存储产品构建了大数据运营管理平台。”惠润海介绍说,“曙光的优势不仅在于可以提供全面的产品支撑,更重要的是能够提供数据生命周期过程服务支持。目前,我们提供的免费维保期限为5年。”
曙光开发了针对不同行业和应用场景的大数据存储解决方案。以金融行业为例,目前国内四大行的应用系统每年产生的非结构化数据量已达到PB级,结构化数据也以百TB计。面对如此大量的数据,如何存储、管理、利用和盘活它们呢?惠润海认为,只有通过商业智能和高级分析应用解决方案才能将数据的价值最大程度地发挥出来。
针对金融行业用户的需求,曙光开发的XData大数据解决方案利用优化的大数据处理技术,对文件管理、历史数据查询和数据分析类应用等进行深入研究,为数据爆炸式增长带来的海量数据存储及分析应用提供高可靠的解决方案。
曙光金融行业XData大数据解决方案采用曙光自主研发的SN-MPP并行数据库,同时结合大数据处理事实标准Hadoop,并充分考虑了多方面的数据收集,加入ETL工具和连接驱动器,提供了类SQL的接口,还和现有金融业务系统进行对接。
针对金融行业历史数据,XData大数据解决方案在方案设计上主要考虑了数据的安全性、历史数据高效导入、快速访问与分析报表。曙光金融行业大数据解决方案立足于基础平台建设,同时切实贴合金融行业用户需求,提供了优质的软硬一体化解决方案,为用户一揽子解决了部署、业务移植开发等技术难题,帮助用户跨过应用门槛。
数据中心存储方案范文第4篇
(四川文理学院计算机学院,四川达州635000)
摘要:针对大数据下档案存储的现状,通过分析存储档案文档存在重复的原因,提出一种MongoDB存储档案文档的方法,利用MongoDB的GridFs统一处理不同类型和大小的文件,定义3个集合分别存储上传者记录、文件信息记录和分块文件内容,提出存储中通过文件MD5校验码值是否相同来进行去重研究,并实现去重的程序代码,有一定的实际意义。采用的分布式存储数据库增强了档案文档存储系统的可扩展性。实验表明,该方法能有效地去除重复的档案文档,提高查询效率。
关键词 :MongoDB;MD5;大数据;档案文档去重;GridFs
中图分类号:TN911?34;TP311 文献标识码:A 文章编号:1004?373X(2015)16?0051?05
收稿日期:2015?03?20
基金项目:国家档案局项目:基于大数据的档案数据去重模型与方法研究(2014?X?65);四川省教育厅一般项目:大数据环境下NoSQL数据库应用研究(14ZB0313)
0 引言
随着信息技术的飞跃发展,各国各地都在大力发展电子政务建设。在此环境下档案局的档案文档也跨入了信息化存储的行列。但档案局的档案类型种类较多,除了纯文本的之外,还有图片、声音、视频、PDF等各种类型的文档,这些文档都是非结构化的数据,在传统的信息系统中,存放这些数据是比较困难的。因此在大数据环境下,设计信息化档案存储系统会首选非结构化的数据库,即NoSQL 数据库。利用NoSQL 家族中的Mon?goDB数据库作为存放档案文档的非结构化数据是较为理想的。MongoDB对存放大量的非结构化数据有很大的优势,但因MongoDB本身就是非结构化的,故在存放信息时会产生重复的数据。有人提出了像在关系数据库中一样建立关键索引来解决重复数据的问题,但在以文档方式存储的数据而言,当数据很大时,这种方式将会有弊端。本文研究的是在存储档案文档之前就重复的数据进行去重处理,然后再存入MongoDB数据库中,这样在数据库中存放的将是非重复的数据。
1 传统的档案存储分析
在原有的存储档案文档信息系统中,主要是把文档以文件的形式存放在文件系统中,然后用原数据信息建立一个档案文件和数据库的链接,并把该链接的路径存储在关系数据库中,如表1和表2所示。
通过表1和表2的分析可知,表2中filePathId与表1中的filePathId 中的字段关联,这样在访问表1 中的某个文件时,只需要访问表2中与filePathId字段关联的记录的fileRealPath的值即可访问该文件。对于以文件系统方式存放的档案文件会产生大量的重复文件。即使在存储的时候能简单的通过人工的方式来检查是否有重复的文件存放,但也不能大面积的检查是否有重复的文件,在这种方式下,存储空间很快会被耗尽,要靠不断的增加存储设备来解决大量档案数据存放的问题,而且不利于管理,数据极其不安全,扩展性较差。人们对此已有逐步的认识,也进行了相应的研究。本文的重点是利用MongoDB 数据库来存储这些非结构化的数据,并且在存放之前就完成对重复档案文档的去重操作。
2 基于MongoDB 的文档存储模型
2.1 MongoDB的存储机制
MongoDB是NoSql家族中的一员,具有模式自由等特性。它与关系数据库一样具有3个层次:分别是数据库层、集合层、文档对象层。分别对应关系数据库中的数据库、表和记录。在MongoDB中文档类似于JSON的键/值对,集合则是一组文档的集合,它们是无模式限制的。MongoDB数据库非常适合实时数据的插入、查询、更新、删除及数据备份等操作。尤其适合充当由几十台或者几百台服务器组成的集群数据库。现在大多数的地理规划等领域都在利用MongoDB数据库进行数据存储。MongoDB数据库不仅支持分布式系统,它本身还支持分片存储数据(Mongod)、客户端请求(Clients)、集群配置(Config Server)和路由协议(Mongos)[1]。它采用的是内存映射的方式作为存储引擎,能有效地提高输入/输出的效率[2]。
2.2 MongoDB数据库中重复数据来源
目前的档案管理系统还处于信息孤岛的层面,各个省市的数据结构不同,存放的方式也不同,惟一能统一的是从市级单位及其下级单位,如区、县、乡、镇单位。利用档案管理系统上传档案文件进行存储的也是这些相关单位。如果同一份档案文档被市级单位分发到其他单位,其他单位会把它作为重要档案文档给上传到档案管理系统中存储起来,这样就会产生多个重复的档案文档。而有部门在不知道的情况下,同一个人上传了几份相同的档案文档;或者利用shp文件批量上传档案文档时遇到其他异常情况,没有一次性的上传完,下次再上传的时候,又是从头开始上传,导致以前的档案文档被重复存储;或者在批量上传的shp文档本身被人为的不小心做成了含有重复的档案文档记录,这样导入shp文件时也会产生重复记录。通过对以上情况的分析可知,档案文档存储时在MongoDB 数据库中产生重复数据的来源主要有以下几点:同一个档案文档被不同的单位、部门重复上传;同一个人对同一个档案文档上传多次;批量档案文档准备过程中人为的产生了重复文档;批量上传时,中断上传,下次再上传时将产生重复文档。
2.3 档案存储模型的建立
档案存储时采用分布式的方式进行上传存储的,各个市、区、县、乡、镇的不同部门可能在不同的时间和地点对档案文档进行上传操作。数据库采用MongoDB数据库,其分布式存储结构如图1所示。
从图1可以看出,各市、县、乡、镇的用户可以随时在不同地点上传档案文档到不同的MongoDB 服务器中,操作方便。档案文档不同于一般的文档,将遵循“谁操作谁负责”的原则。故将设置上传者的权限,且将记录上传者的详细信息:如上传时间、地点等的一些信息。而对于档案文档本身而言其文件大小不能统一标准化,且档案文档的格式有差异,考虑到要处理数据大小和类型都可能不同的档案文档,本文将借助于Mon?goDB 的GridFs 来处理,GridFs 是一种处理大文件的规范,可以存储上百万的文件而不用担心其扩容性[3]。在MongoDB中存放数据时将涉及到3个集合:userInfo.users,fileInfo.files,fileContent.chunks。
userInfo.users 集合用来存放上传档案文档的上传者信息,其结构如下:
集合fileInfo.files中的fileID与集合userInfo.users集合中的upLaodfileID 相同,用来关联上传的文件信息。集合fileContent.chucks中的fileID 与集合fileInfo.files中的fileID相同,用来关联文件存放的具体内容,根据上面3个集合中结构的设计,当一个具有操作权限的用户在某一地点上传了某个档案文件后,将记录该用户上传的详细信息:如操作者,上传的具体区、县、乡的详细地址,上传的日期、文件名、文件的大小、长度、类型等。当该用户再次上传相同的档案文档时,根据表的关联查找,将会做出已在同一地点或不同地点已经上传了相同的档案文件的提示信息。
3 MongoDB 中的去重算法
本算法的设计思想是,根据上传的档案文档判断,无论是否已经被上传过,都会存储上传档案文档操作者的相关信息,即生成一个userInfo.users集合中的一条记录。上传档案文件时为了节省服务器的开销和资源,所上传文档的MD5 校验码值的计算都会在客户端进行。在客户端计算并上传档案文档的MD5校验码值后再在分布式存储数据库中查找遍历fileInfo.files中的每一条记录,查看每条记录中存储的档案文档的MD5 码值是否与将要上传的档案文档的MD5码值相同,如果不同,则将在userInfo.user 集合中存储一条上传者信息的记录,并且把该记录中的“UploadCount”值设置为1。同时生成集合fileInfo.files 中的一条记录,在该记录中通过“fileMD5”存储档案文档的MD5码值。获得要上传的档案文档的大小fileSize,确定档案分块存储的总块数file?ChuckSize。在算法中为了规范,不管文件的大小和类型,均采用统一大小(fixedSize)的分块对档案文档进行存放,即总分块数如下所示:
fileChuckSize=(fileSize%fixedSize)?(fileSize/fixedSize):(fileSize/fixedSize+1)
并把该值记录到fileInfo.files 集合中对应记录中。然后对档案文档进行上传并对文档内容按固定的分块大小存放到fileContent.chucks集合中,在该集合里会存储fileChuckSize 条记录。如果要上传的档案文档的MD5码值和分布式数据库中存储的fileInfo.files集合中存储的某个记录的fileMD5值相同,则取出该条记录对应的fileID 值并把该值存放到一个临时存储字段temp?FileID 中,已备后期使用。然后提取上传者的信息和tempFileID 的值组合成userInfo.users 集合中的一条记录,并与集合中的其他记录进行比较,如果有相同的记录,则在该条记录的UploadCount值加1。而组合的这条记录将不再存储在userInfo.users集合中。其中Upload?Count值加1是判断该用户是否经常在同一个地点上传相同的档案文档。
如果在该集合中没有相同的记录,则存储该组合好的记录。下次在访问这个档案文档时,通过userInfo.us?ers集合中的upLoadfileID关联到fileInfo.files集合,再通过fileInfo.files 集合中的fileID 关联到fileContent.chucks集合,则顺利访问到需要的档案文档,其过程流程图如图2所示。
根据算法流程图,定义几个类UserInfo,FileInfo,FileContent 分别对应3 个集合,定义操作数据库的类DBObj,定义去重的类RemoveRepeat。
去重的关键代码实现如下:
在代码中定义了findByFileMD5()方法判断在已经存储的fileInfo.files集合的记录中有没有与将要上传的档案文档的MD5 校验码相同的记录存在。定义方法findRepeatData()用来检查有无重复上传档案文档上传者信息,即判断在usersInfo.user中有没有重复的数据记录,这些方法在批量导入数据记录时也会调用逐一判断。
4 实验结果与分析
本实验使用Hadoop作为分布式文件系统运行在不同地理位置的10 台主机组成的集群上,在Window7 系统中,采用MyEclipse8.5 做Java 代码开发,分布式数据库MongoDB 作数据存储,采用的是8 核CPU,8 GB 内存,320 GB 硬盘。批量导入使用的是shp文件。shp文件的格式定义同集合文件的格式。对单个的文档上传进行验证无误外,为了对更多的数据进行验证,在shp文件中模拟产生10万,20万,30万数据。结果如图3所示。
该方法在数据去重中达到90%以上,去重效果还比较理想。算法采用的是分布式文件系统,对文件去重效率较高,且系统具有相应的扩展性。
5 结语
本算法中采用分布式文件系统和分布式数据库MongoDB 对档案文档进行存储和去重,利用MongoDB数据库的GridFs来处理不同类型和大小的档案文档,统一对档案文档进行处理。提出利用了去重的算法思想,并通过实验模拟测试去重效果较为理性。该方法具有一定的可行性。为以后大数据的存储的去重有一定的借鉴性。
参考文献
[1] 雷德龙,郭殿升,陈崇成,等.基于MongoDB的矢量空间数据云存储与处理系统[J].地理信息科学,2014(7):508?514.
[2] 吴秀君.面向电子政务的MongoDB与MySQL混合存储策略[J].计算机与现代化,2014(8):62?65.
[3] CHODOROW Kristina.MongoDB 权威指南[M].北京:人民邮电出版社,2010.
[4] 郭武士.基于MongoDB GridFS的图片存储方案的实现[J].四川工程职业技术学院学报,2011(4):41?43.
[5] 卫启云,渠伟勇,黄鸿,等.城市地理编码的部门信息共享与应用实践[J].测绘通报,2014(10):101?104.
[6] 陈超,王亮,闫浩文,等.一种基于NoSQL 的地图瓦片数据存储技术[J].测绘科学,2013(1):142?143.
[7] MANBER U. Finding similar files in a large file system [C]//Proceedings of the Winter 1994 USENIX Technical Conference.San Fransisco,CA,USA:[s.n.],1994:1?10.
[8] BRODER A Z. On the resemblance and containment of docu?ments [C]// Proceedings of the International Conference on Com?pression and Complexity of Sequences. Salerno,Italy:[s.n.],1997:21?29.
[9] 孙有军,张大兴.海量图片文件存储去重技术研究[J].计算机应用与软件,2014(4):56?57.
[10] RIVEST R. The MD5 message ? digest algorithm [J]. RFC1321,Internet Engineering Task Force,1992,22(1) :15?26.
[11] 成功,李小正,赵全军.一种网络爬虫系统中URL去重方法的研究[J].中国新技术新产品,2014(12):23?24.
[12] 杨祥清.存储系统数据去重策略研究[J].信息通信,2014(8):132?133.
数据中心存储方案范文第5篇
法规遵从要求和新型的存储密集型应用(如电子邮件、多媒体、生命科学研究和生物统计学)正在合力将数据增长速度提高到前所未有的水平,并且已经使众多企业遭受数据增长失控的困扰。面对这种情况,大多数企业下意识的反应都是试图通过不断提供容量来满足数据增长的挑战,即一旦系统出现“磁盘空间已满”的标志,新的存储系统就会被立即连接到服务器上。但遗憾的是,在同一环境中的其他存储系统却闲置在一旁。这种系统饱和状态和闲置状态并存的分散式存储环境,从投资回报的角度看,无法对设备进行充分的利用,导致了存储设备的投资浪费; 从环保的角度看,为支持分散的存储系统所需的电力、冷却系统和地板空间等环境成本也必将水涨船高,导致了不必要的电力、散热、空间资源的浪费。
采用切实有效的虚拟化技术,数据中心的管理人员可以通过整合存储资源来积极面对失控的数据增长,在为企业存储环境重整秩序的同时节省数据中心的地板空间资源,并能降低数据中心对电力和散热的需求,从而显著减少与环境有关的成本。
日立数据系统(HDS)公司的智能虚拟存储控制器将磁盘介质与提供存储、数据及内容服务的智能控制器分离开来,日立能够为用户提供较强的灵活性,并在构建绿色数据中心方面具有得天独厚的竞争优势。
提高存储密度
存储基础架构对能源的消耗是和磁盘数直接挂钩的,而非存储的数据量,所以容量的密度越大就意味着能耗效率越高,因此利用虚拟化来部署分层存储和实施通用管理架构能够大大提高资源利用率。以HDS的USP为例,它不仅配有功能独特且强大的基于控制器的虚拟化引擎,还可以将控制器与存储介质相分离,允许企业将其DAS、NAS和SAN 都整合到一个存储平台中,使用户可以在短短几秒钟内将存储空间分配(或解除分配)给某个应用。
此外,USP还可以通过一个单一的控制器来管理整个数据中心高达32 PB的存储容量,大大提高了数据中心每平方米所能支持的TB数。在使用单个控制器的前提下,市场上部分同类产品仅能支持0.5 PB,其余产品也不过是1.2 PB。由于HDS的虚拟存储控制器能够通过单一的存储控制器管理庞大的存储量,因此虽然它拥有的处理器数量与市场上同类产品相同,但其单机所支持的存储容量却远远高于同类产品,从而能够带给企业显著的能源、散热及空间效益。据估算,HDS提供的虚拟化和逻辑分区功能能够将数据中心的能源及散热成本降低30%~50%。
减少热源
据Gartner统计,过去数据中心的散热所需电量只要60%,而今天这个数字已经攀升至100%――现在存储器每消耗1瓦电就需要额外1~1.5瓦的电力用于散热。降低数据中心散热需求的关键在于减少热源。存储和服务器机架应当配置成冷热交替排列,否则后排机架就会吸收临近的前排机架所排出的热量。在不采用虚拟化的情况下,管理人员就无法摆脱固定配置,而且还可能不得不加大散热能源的供应。通过利用虚拟化,管理人员就能够重新配置存储机架,不仅不会引起应用中断,还能充分利用更合理的散热配置。HDS提供的基于控制器的虚拟化能在任何环境下将控制器与存储介质相分离,而其他供应商仍局限于只对机柜中的存储器提供支持。HDS同时能够提供外部连接存储虚拟化,这表示企业可以在数据中心之外连接存储设备,从而减少数据中心的热源。
降低其他成本
HDS基于USP V平台率先在企业级虚拟层实现了Thin Provisioning(动态精细化预配置)功能:USP V和Hitachi Dynamic Provisioning (日立动态与配置)软件的结合使用户能够在一个整合的解决方案中同时获得外部存储虚拟化的益处以及由Thin Provisioning带来的电力和冷却成本方面的优势。由于传统的存储管理和主机卷管理都要求存储管理员预先为应用分配足够的存储空间,以便确保业务应用,因此管理员不得不通过过度地分配存储容量来避免因容量不足而导致应用崩溃的风险。但是这种固定的物理卷分配会造成存储容量的极大浪费,也会促使管理员为了克服时间与成本的限制而为现有的卷增加性能或容量,从而带来人为干预所导致的混乱。
USP V 打破了由于过度配置存储容量而造成的局限,它采用面向服务的方法为用户提供了一种新型的卷创建工具。Hitachi Dynamic Provisioning软件能够使用户根据自身所预期的未来需求合理分配虚拟磁盘存储,而无需预先分配专用的物理磁盘存储。如果未来应用需要更多的物理磁盘容量,用户可以在将来以更低的价格购买额外容量,并且透明地实施安装,不会造成其关键任务应用的中断。由于减少了对物理磁盘的需求,大大提高了容量利用率,因此也减少了对“占地面积”的需求,进而为用户大大降低了空间、电力和冷却方面的成本。
USP V还可以与日立 Tiered Storage Manager (分层存储管理软件)相结合,识别并应对不断变化的应用需求挑战,允许数据在存储层之间的频繁迁移以确保其一直处于最佳位置,从而使用户确保其数据始终处于最“环保”的位置。
另外,对于有大规模整合需求的企业用户以及生命科学、互联网服务及娱乐等数据密集型高性能计算领域的用户而言,高性能NAS系统有助于降低电力、散热和数据中心空间资源等成本。日立基于BlueArc技术的高性能NAS平台不仅能配置成集群,还具备先进的内置虚拟化系统,在很大程度上改变了用户的成本组成,能够在很大程度上节省用户的环境资源及成本。
专家点评
上一篇:数据中心解决方案{整合5篇}
下一篇:数学学习阻碍的认知特点与教学方案