高性能计算 并行计算
存储需求分析
现状分析
在超算平台的环境中,随着各种应用数据采集技术的不断进步,数据量也在急剧上升,迫使超算环境从以节点为中心转变成了以计算、存储的两个中心。同时数据的读取和操作方式也发生了改变,尤其是同一份数据需要满足多个计算节点的并发访问,对存储系统提出了前所未有的挑战。当前超算平台中一般都采用了并行文件系统作为数据高性能读写的文件存储平台,但是却有如下几个常见的问题:
- 数据可靠性差
常见的并行文件系统采用了下述两种数据冗余保护方案:
1、硬件RAID:存储服务器内部硬件RAID,存储服务器节点之间并无数据冗余保护,这就意味着一旦其中一台存储服务器宕机或者RAID损坏,则可能导致数据无法访问甚至数据丢失;
2、硬件RAID+节点之间多副本/镜像:首先在存储服务器内部配置硬件RAID实现硬盘保护,同时还配置将数据在不同的存储服务器多保留一份副本。但该配置如果两台存储服务器宕机同样会导致数据丢失和访问中断。
- 存储空间利用率低
常见并行文件系统所采用了数据冗余保护方案以后,往往就导致整体存储空间利用率低下的问题。在当前往往使用大容量硬盘的背景下,硬件RAID会需要配置RAID51之类的保护等级,那么整体的空间利用率就低于50%。而为了消除存储服务器的单点故障将数据生成了多副本存储,将进一步降低整体的空间利用率,整体的空间利用率将会是33-50%之间。
- 性能达不到要求
并行文件系统往往要支撑前端数百、数千台计算节点并行计算处理时所产生的文件并发读写请求,需要非常高的并发读写带宽、高效的小文件存储和检索效率。而在常见的超算环境中,并行文件系统的性能往往会成为影响计算效率的重要因素。
总体需求
根据上述的挑战,超算平台迫切需要一个满足海量并发需求的高性能、高扩展性、易管理而且数据统一存储的存储系统,以保障业务连续性、降低成本和管理的复杂性,同时提高业务效率,彻底解决超算平台经常遇到的问题。
以下对业务类型做一番具体的存储需求分析:
需求要点 |
详细说明 |
性能 |
持续稳定的高带宽性能,并且可持续扩展到数十GB/s甚至数百GB/s; |
数据安全性 |
在硬件出现故障或者网络故障的情况下,也需要保障数据完整性; |
业务连续性 |
即使出现存储设备宕机,也保障计算任务能够连续性运行以完成; |
扩展性 |
能够支撑不断扩展的计算能力对于存储读写性能和容量的需求; |
星实StarGFS并行文件系统方案介绍
星实信息自主研发推出了高性能StarGFS并行文件系统,具有极佳的弹性伸缩能力、支持百亿级海量小文件、超高的并发读写性能、秒级的快照克隆技术以及相关企业级的功能特点。StarGFS基于通用化服务器和以太网/IB网络构建,具备极高的扩展性和可靠性。StarGFS具有多副本和纠删码等数据冗余功能,可以避免因为故障而导致服务中断或者数据丢失等影响,提高业务连续性。
方案拓扑图
StarGFS方案拓扑图如下:
StarGFS存储方案特点
StarGFS具有“兼容开放、弹性扩展、智能高效”等特点,主要特性如下:
EB级别文件全局共享
StarGFS采用存储服务器集群的方式来满足海量数据的存储需求,大量的存储服务器构成的一个分布式的虚拟化存储池,能够为应用提供单卷EB级的存储容量,高效的管理上千亿个文件,单目录可以高效支持千万级的文件数量。所有的应用客户端都可以共享访问共享文件系统中的数据,能够很好的保证应用系统数据的一致性,且存储池中的资源可以按照应用性能和容量需求进行动态的弹性分配。
海量文件高效检索
StarGFS支持百亿级文件统一存储和高效率检索。StarGFS内部的系统采用了创新的小文件Container容器存储技术,能够在前端呈现标准POSIX文件系统名字空间的同时,在后端小文件落盘存储的时候实现智能的聚合成大文件的方式来实际存储。该技术将小文件OPS效率提高到传统存储的十倍以上,完全可以轻松应对任何存在海量小文件的业务场景。
高并发读写性能
StarGFS并行文件系统是采用数据通道与检索通道分离的形式实现,且存储服务器可动态进行扩容,从而加大系统的检索能力与数据传输的性能,也就是说在高并发访问情况发生时,存储服务器可迅速的检索到数据信息,然后让数据存储端与访问端直接建立数据通道,进行并发数据读取,从而提升高并发访问效率。同时,StarGFS的可根据存储服务器的内存大小将热点检索数据尽量多地驻留在内存中,提升数据访问的效率。StarGFS使得整个存储平台在架构上没有任何性能瓶颈,能够提供超过500GByte/s的聚合IO带宽以及1000万次以上的IOPS(每秒读写次数)。
用户数据经StarGFS内核客户端驱动统一分发给所有分片所在存储节点,而非存储节点转发。这样就形成了更短网络数据路径,从而降低数据访问延迟,减少系统开销。
数据高可靠
StarGFS允许对虚拟存储池中不同的目录设置不同的副本数或N+M纠删码。
为了保障失效的数据能够得到及时的恢复,让整个存储系统能够时刻保证更高的安全状态,StarGFS内置自动故障探测机制,一旦探测到故障则自动启动数据恢复流程。在StarGFS的架构设计中,无需在恢复过程中加入新的硬件。存储系统将为损失的数据在完好设备中分配新的空间,失效设备上的数据将被恢复到正常的存储服务器和磁盘中。