生命科学
AI深度学习干细胞,大数据预测疾病模型
对于干细胞生物学家来说,他们一直以来怀疑猜测两个遗传物质上克隆的干细胞是否完全相同。近日,这一生物学领域的惊人多样性现象在西雅图得以进一步确认——6000多张荧光标记的诱导性多能干细胞(iPS)图片揭示了大量丰富的细胞生物学基础信息。
“世界上没有两片完全相同的树叶。”
对于干细胞生物学家来说,他们一直以来怀疑猜测两个遗传物质上克隆的干细胞是否完全相同。近日,这一生物学领域的惊人多样性现象在西雅图得以进一步确认——6000多张荧光标记的诱导性多能干细胞(iPS)图片揭示了大量丰富的细胞生物学基础信息。
细胞生物学家们整合了大型3D成像数据,应用人工智能、机器深度学习和CRISPR基因编辑,创建了可视化的细胞组织预测模型和其他一系列强大工具,从而允许研究人员预测可能预示癌症和其他疾病的细胞布局变化。
这些工具可能通过揭示细胞结构层面意想不到的数据结果,加速干细胞研究、癌症研究和药物开发方面的进展。他说道:“细胞是非常复杂的,它涉及成千上万的相互作用部件,一起协调工作来驱动和调节细胞结构及行为。”
产生Allen Cell Explorer的流程(图片来源:艾伦细胞科学研究所)
为了创建模型,研究人员对数千个人类干细胞的高质量图像进行了“培训”,以了解干细胞组件的组织方式。具体来说,计算机科学家使用深度学习程序分析了数千个图像,并发现了细胞胞内结构位置之间的关系。然后,他们使用这些信息来预测结构可能的位点,比如当使用程序改变细胞核的位置之时。该计划旨在通过将其预测结果与实际细胞进行比较来“深度学习”。
研究人员使用‘深入学习’来尝试了解实际上细胞如何组织自我的难题。而以前的科学研究大体依赖于教科书的示意图画,这些示意画是基于艺术科学家对相对较少数量的细胞数据的诠释。未来简单示意图最终将被数量众多的细胞数据驱动模型所取代。
并行文件系统支持海量干细胞图像高效存储
科学家们通过AI深度学习技术对于干细胞进行了大量的图像分析,建立模型,来进一步的探索人生生命的奥秘。从第一章所引用的文章可以看出,科学家们的深度学习必须建立在海量的数据的基础之上,并且采用了种种计算机手段对于海量的干细胞图像进行快速的建模并对于干细胞后续写变化进行预测。在对于海量数据进行AI深度学习的过程中,选择一套能够支撑快速高效的将干细胞数据存储并能够快速检索读取访问的存储系统,能够极大的加速生命科学的探索过程。
星实公司推出了面向高性能、海量数据应用场景的StarGFS并行文件系统,已经在基因测序、生物电镜等诸多生命科学领域支撑了海量的科研数据集中高效的存储。
---------------------------------------------------------------------------------------
StarGFS并行文件系统方案介绍
StarGFS并行文件系统是一个性能为中心,围绕简单易用、易安装以及易管理而设计的领先并行文件系统,具有高性能、高可靠、出众的小文件性能等诸多特点。
出众的性能
StarGFS是以性能为中心,采用了集群架构设置,系统支持无上限的扩展,理论上能扩展到EB级别。单一集群承载上万台服务器。整个系统能提供上百GB/s的吞吐带宽。
针对海量小文件高吞吐率、高效检索技术
深度学习场景具有很多图片和文件参与模型的训练,这些大量的图片和文档都比较小,一般都在10M以下并且数量巨大,大的模型甚至有上百万个文件。
StarGFS结合高性能计算应用文件创建、访问以及目录结构特点,研制了多元数据服务器集群技术。在一套存储系统中可以根据用户生产系统中实际产生文件数量的规模对元数据服务器集群进行动态配置,整个存储系统中所有的元数据服务器同时参与文件的检索和定位工作,消除存储系统中元数据通道的瓶颈,同时还可以根据后续应用特点的变化和需求的增强,做到在线扩展元数据服务器,并且达到即插即用的效果。
同时StarGFS充分利用SSD的高IOPS特点,设计了SSD动态缓存技术,提升文件系统在海量小文件场景的IOPS/OPS。
创新小文件容器Container存储技术
StarGFS采用了小文件容器Container聚合存储技术,将小文件进行聚合存储,小文件像大文件一样的存储,减少了元数据的操作量。十几倍的提升了小文件的读取效率。
表 2 小文件容器Container存储技术
表 3 小文件容器Container存储技术对于性能提升的变化
数据安全
StarGFS支持N+M纠删码(在保证系统高并发读写的前提下,还能通过纠删码保证节点级的冗余。能保证系统在数据安全性、高并发读写、高空间利用率三者皆得。
面向高性能计算的智能数据缓存技术
StarGFS多级缓存机制
高效的数据缓存技术能够帮助存储系统发挥更好的性能,提高计算任务的效率。StarGFS采用多级智能数据缓存技术来实现高效缓存。
首先,通过应用服务器上自主研发客户端内核模块,分析应用访问数据的特点,采用特定的缓存算法在应用服务器上有效缓存应用的访问数据;
其次,将所有存储服务器的内存集合起来形成一个大的缓存池,通过存储服务器上独特的缓存算法缓存不同应用访问的数据;
最后,将所有元数据服务器的内存集合起来形成一个高效的元数据缓存池,通过复杂的元数据淘汰算法来缓存元数据信息。通过这样多级数据的缓存技术,会使得整个存储系统的性能能够得到大幅提高。
StarGFS方案配置
StarGFS支持跟应用融合的模式部署,即每台GPU服务器同时跑GPU计算,又作为存储服务器的角色来实现配置。
StarGFS并行文件系统&GPU/CPU计算融合部署运行
存储计算分离的架构图
StarGFS典型生命科学应用案例
- 西安某高校:生物电镜数据存储,PB级规模,应用生物电镜所产生的的数据存储;
- 上海某医药公司:构建StarGFS 1PB规模,并使用StarDM实现了数据多存储复制实现保护;
- 北京某基因科技有限公司:15年上线,PB级。支撑海量基因组数据的存储和分析;
- 上海某生物科技有限公司:2PB,支撑海量基因组数据的存储和分析;