上海市某知名三甲医院是一所集医疗、教学、科研、预防、保健、康复、急救为一体的三级甲等综合性医院,是上海市医保和新农合定点医院,是国家执业医师资格临床技能考试基地、国家住院医师培训基地、上海市住院医师规范化培训基地、上海市临床专科培训基地,先后荣获全国百佳医院、上海市文明单位等荣誉称号。

 

该医院希望在构建一套AI人工智能平台来实现对于医疗影像数据价值的挖掘和训练。数据是深度学习的基础,也是实现人工智能的最底层土壤。医学影像AI对于存储和读取对存储系统也提出了非常高的挑战:

 

要点

详细需求

大容量

深度学习的训练需要非常多的数据参与训练,数据量越大,训练的模型更为精确。大型的数据集容量往往会达到几十TB甚至上百更甚至达到PB级别;

性能

在GPU平台上,深度学习广泛的采用了并行算法,会有非常大的并发IO。需要底层并行文件系统,持续稳定的高带宽性能,并且可持续扩展到数十GB/s;

小文件

大部分的数据集都是由很多小的文件组成,比如图像识别领域,单张图片往往不大,但是一个数据集包含上百万甚至更多的图片。这种已经形成海量小文件场景。需要并行文件系统对海量小文件进行优化,同时基本很高的性能;

数据安全性

研究的数据都是宝贵的,数据在存储中要避免因为服务器硬件出现故障或者网络故障的情况而数据丢失。并行文件系统需要有硬件冗余能力来保障数据安全性;

业务连续性

即使出现存储设备宕机,也保障计算任务能够连续性运行以完成;

扩展性

随着研究的进展,会有越来越多的数据参与计算。并行文件系统需要能够支撑不断扩展的计算能力对于存储读写性能和容量的需求;

 

StarGFS提供强力解决方案

星实推出的StarGFS并行文件系统是一个性能为中心,围绕简单易用、易安装以及易管理而设计的领先并行文件系统。具有高性能、高可靠、出众的小文件性能等诸多特点。

 

StarGFS是以性能为中心,采用了集群架构设置,系统支持无上限的扩展,理论上能扩展到EB级别。单一集群承载上万台服务器。整个系统能提供上百GB/s的吞吐带宽。

 

 

StarGFS架构图

高数据读写性能

高性能文件系统客户端满足高并发需求

StarGFS采用了和传统存储系统不一样的文件数据切片式存储,智能化的文件切片存储能够更好的让数据落盘更加顺序化,减少硬盘磁头抖动提升读写性能;并且由于所有硬盘同时运转对外提供存储服务,实现系统性能最大化。

StarGFS对于普通的SATA硬盘可以发挥接近150MB/s的读写性能,充分发挥硬件自身的效率来实现超高的并发数据读写能力,提高业务运转效率。

 

针对海量小文件高吞吐率、高效检索技术

 

深度学习场景具有很多图片和文件参与模型的训练,这些大量的图片和文档大小都比较小,一般都在10M以下并且数量巨大,大的模型甚至有上百万个文件。

 

StarGFS现有的多元数据服务器集群技术的基础上,结合高性能计算应用文件创建、访问以及目录结构特点,研制了多元数据服务器集群技术。在一套存储系统中可以根据用户生产系统中实际产生文件数量的规模对元数据服务器集群进行动态配置,整个存储系统中所有的元数据服务器同时参与文件的检索和定位工作,消除存储系统中元数据通道的瓶颈,同时还可以根据后续应用特点的变化和需求的增强,做到在线扩展元数据服务器,并且达到即插即用的效果。

 

同时StarGFS充分利用SSD的高IOPS特点,设计了SSD动态缓存技术,提升文件系统在海量小文件场景的IOPS/OPS。

 

创新小文件容器Container存储技术

 

目前,存储市场上大部分的存储系统在海量小文件的应用模式下,都存在吞吐率低,检索慢的问题,这个问题的本质原因是整个存储系统处理元数据的效率所导致的。海量的小文件导致了元数据数量也狠庞大,常见的文件系统无法快速的处理庞大的元数据。

StarGFS创新采用了小文件容器Container聚合存储技术,将多个文件进行聚合存储。这样将多次的元数据操作整合成了一次,大大减少了元数据的操作量。十几倍的提升了小文件的读取效率。

 

小文件容器Container存储技术

 

面向高性能读写需求的智能数据缓存技术

 

StarGFS多级缓存机制

 

高效的数据缓存技术能够帮助存储系统发挥更好的性能,提高计算任务的效率。StarGFS采用多级智能数据缓存技术来实现高效缓存。

 

首先,通过应用服务器上自主研发客户端模块,分析应用访问数据的特点,采用特定的缓存算法在应用服务器上有效缓存应用的访问数据;

 

其次,将所有存储服务器的内存集合起来形成一个大的缓存池,通过存储服务器上独特的缓存算法缓存不同应用访问的数据;

 

最后,将所有元数据服务器的内存集合起来形成一个高效的元数据缓存池,通过复杂的元数据淘汰算法来缓存元数据信息。通过这样多级数据的缓存技术,会使得整个存储系统的性能能够得到大幅提高。

 

多副本和纠删码技术消除设备级别单点故障

 

创新的StarRAID技术对数据进行冗余保护,通过N+M纠删码按需动态设置数据保护等级。存储系统具备自动故障检测与恢复机制,自动快速恢复重建,恢复速度是传统Raid的10倍以上(1TB数据重构时间小于30分钟),能保证系统在数据安全性、高并发读写、高空间利用率三者皆得。

系统支持磁盘热插拔,只要容量足够就不需即时更换故障盘,不影响业务连续性。