高性能计算 并行计算

存储需求分析

现状分析

在超算平台的环境中,随着各种应用数据采集技术的不断进步,数据量也在急剧上升,迫使超算环境从以节点为中心转变成了以计算、存储的两个中心。同时数据的读取和操作方式也发生了改变,尤其是同一份数据需要满足多个计算节点的并发访问,对存储系统提出了前所未有的挑战。当前超算平台中一般都采用了并行文件系统作为数据高性能读写的文件存储平台,但是却有如下几个常见的问题:

 

  • 数据可靠性差

常见的并行文件系统采用了下述两种数据冗余保护方案:

1、硬件RAID:存储服务器内部硬件RAID,存储服务器节点之间并无数据冗余保护,这就意味着一旦其中一台存储服务器宕机或者RAID损坏,则可能导致数据无法访问甚至数据丢失;

2、硬件RAID+节点之间多副本/镜像:首先在存储服务器内部配置硬件RAID实现硬盘保护,同时还配置将数据在不同的存储服务器多保留一份副本。但该配置如果两台存储服务器宕机同样会导致数据丢失和访问中断。

 

  • 存储空间利用率低

常见并行文件系统所采用了数据冗余保护方案以后,往往就导致整体存储空间利用率低下的问题。在当前往往使用大容量硬盘的背景下,硬件RAID会需要配置RAID51之类的保护等级,那么整体的空间利用率就低于50%。而为了消除存储服务器的单点故障将数据生成了多副本存储,将进一步降低整体的空间利用率,整体的空间利用率将会是33-50%之间。

 

  • 性能达不到要求

并行文件系统往往要支撑前端数百、数千台计算节点并行计算处理时所产生的文件并发读写请求,需要非常高的并发读写带宽、高效的小文件存储和检索效率。而在常见的超算环境中,并行文件系统的性能往往会成为影响计算效率的重要因素。

 

总体需求 

根据上述的挑战,超算平台迫切需要一个满足海量并发需求的高性能、高扩展性、易管理而且数据统一存储的存储系统,以保障业务连续性、降低成本和管理的复杂性,同时提高业务效率,彻底解决超算平台经常遇到的问题。

以下对业务类型做一番具体的存储需求分析:

 

需求要点

详细说明

性能

持续稳定的高带宽性能,并且可持续扩展到数十GB/s甚至数百GB/s

数据安全性

在硬件出现故障或者网络故障的情况下,也需要保障数据完整性;

业务连续性

即使出现存储设备宕机,也保障计算任务能够连续性运行以完成;

扩展性

能够支撑不断扩展的计算能力对于存储读写性能和容量的需求

 

星实StarGFS并行文件系统方案介绍

星实信息自主研发推出了高性能StarGFS并行文件系统,具有极佳的弹性伸缩能力、支持百亿级海量小文件、超高的并发读写性能、秒级的快照克隆技术以及相关企业级的功能特点。StarGFS基于通用化服务器和以太网/IB网络构建,具备极高的扩展性和可靠性。StarGFS具有多副本和纠删码等数据冗余功能,可以避免因为故障而导致服务中断或者数据丢失等影响,提高业务连续性。

 

方案拓扑图

StarGFS方案拓扑图如下:

 

 

StarGFS存储方案特点

StarGFS具有“兼容开放、弹性扩展、智能高效”等特点,主要特性如下:

 

EB级别文件全局共享

StarGFS采用存储服务器集群的方式来满足海量数据的存储需求,大量的存储服务器构成的一个分布式的虚拟化存储池,能够为应用提供单卷EB级的存储容量,高效的管理上千亿个文件,单目录可以高效支持千万级的文件数量。所有的应用客户端都可以共享访问共享文件系统中的数据,能够很好的保证应用系统数据的一致性,且存储池中的资源可以按照应用性能和容量需求进行动态的弹性分配。

 

海量文件高效检索

StarGFS支持百亿级文件统一存储和高效率检索。StarGFS内部的系统采用了创新的小文件Container容器存储技术,能够在前端呈现标准POSIX文件系统名字空间的同时,在后端小文件落盘存储的时候实现智能的聚合成大文件的方式来实际存储。该技术将小文件OPS效率提高到传统存储的十倍以上,完全可以轻松应对任何存在海量小文件的业务场景。

 

 
高并发读写性能

StarGFS并行文件系统是采用数据通道与检索通道分离的形式实现,且存储服务器可动态进行扩容,从而加大系统的检索能力与数据传输的性能,也就是说在高并发访问情况发生时,存储服务器可迅速的检索到数据信息,然后让数据存储端与访问端直接建立数据通道,进行并发数据读取,从而提升高并发访问效率。同时,StarGFS的可根据存储服务器的内存大小将热点检索数据尽量多地驻留在内存中,提升数据访问的效率。StarGFS使得整个存储平台在架构上没有任何性能瓶颈,能够提供超过500GByte/s的聚合IO带宽以及1000万次以上的IOPS(每秒读写次数)。

用户数据经StarGFS内核客户端驱动统一分发给所有分片所在存储节点,而非存储节点转发。这样就形成了更短网络数据路径,从而降低数据访问延迟,减少系统开销。

 

 
数据高可靠

StarGFS允许对虚拟存储池中不同的目录设置不同的副本数或N+M纠删码。

 

 

为了保障失效的数据能够得到及时的恢复,让整个存储系统能够时刻保证更高的安全状态,StarGFS内置自动故障探测机制,一旦探测到故障则自动启动数据恢复流程。在StarGFS的架构设计中,无需在恢复过程中加入新的硬件。存储系统将为损失的数据在完好设备中分配新的空间,失效设备上的数据将被恢复到正常的存储服务器和磁盘中。

 

 

 

首页    解决方案    高性能计算 并行计算

相关案例

  • 中国电信-海量视频点播

    随着互联网技术的逐渐成熟和创新模式的不断涌现,用户与互联网之间的交互越来越多,用户的浏览习惯也逐渐从简单的文字转向了更加丰富多彩的视讯类内容。互联网用户可以自由发挥丰富的想象力和创新能力贡献出大量极具观赏性的视讯内容,极大的丰富了互联网内涵,也吸引了越来越多的眼球。视讯网站吸引了大量忠实的用户并迅速地发展,用户又不断的参与到视讯内容作者的队伍中,规模几乎呈爆炸性的增长。在这样背景下,视讯应用的多种特点给存储系统带来了严峻的挑战。

    67 ¥ 0.00
  • 某保险公司-保险影像数据

    一直以来,作为传统行业,保险公司的存储系统普遍采用集中式的SAN和NAS存储。这种采用专业硬件的紧耦合架构设计的传统集中式存储一直主导着险企存储技术的发展,而且长期以来都作为各种保险业务、ERP、邮件的主存储系统,因此我们的关注点也大多集中在如何提高这些专用存储系统的性能、安全性和可管理性上。但随着企业的发展,保险业务量的激增,企业信息系统出现越来越多的非结构化数据。影像系统是非结构化数据的一个主要来源,已经积累了数十亿的文件量,占用了近PB的空间。这些非结构化数据主要存放在上述集中式存储上。

    111 ¥ 0.00
  • 浙江某精密制造企业-人工智能

    2012年以后,得益于数据量的上涨、运算力的提升和机器学习新算法(深度学习)的出现,人工智能开始大爆发。人工智能广泛的采用深度学习来实现,目前大部分的深度学习算法研究都基于GPU架构的超算平台。GPU+人工智能算法在很多领域都取得了很好的应用效果,如信号处理、物理模拟、几何计算、数据挖掘和图像处理等领域。HPC和AI正走的越来越近。

    浙江某精密制造企业为了能够更好的进行生产制造,采用了人工智能技术来对相关生产数据进行更深度的分析,从而获得对于更多优化生产和制造相关的方案。

    84 ¥ 0.00
  • 上海某三甲医院-医疗影像数据

    上海市某知名三甲医院是一所集医疗、教学、科研、预防、保健、康复、急救为一体的三级甲等综合性医院,是上海市医保和新农合定点医院,是国家执业医师资格临床技能考试基地、国家住院医师培训基地、上海市住院医师规范化培训基地、上海市临床专科培训基地,先后荣获全国百佳医院、上海市文明单位等荣誉称号。

    92 ¥ 0.00
  • 环球数码-影视动漫制作

    在动漫行业的应用中,3D建模渲染、动画、视频游戏、影视后期等图形密集型应用对硬件处理性能和网络带宽都有较高要求。随着高清、2K甚至4K电影的制作需求的增长,以往的NAS系统统一存储空间不足,从而成为了整套系统的限制;NAS头成为限制前端计算节点任务运行效率的重要因素;传统方案存储系统的业务访问连续性不足。传统的存储解决方案难以满足集群制作与渲染对于存储带宽和容量的需求,成为了制作流程中的瓶颈。

    103 ¥ 0.00