生命科学

AI深度学习干细胞,大数据预测疾病模型

 

对于干细胞生物学家来说,他们一直以来怀疑猜测两个遗传物质上克隆的干细胞是否完全相同。近日,这一生物学领域的惊人多样性现象在西雅图得以进一步确认——6000多张荧光标记的诱导性多能干细胞(iPS)图片揭示了大量丰富的细胞生物学基础信息。

 

“世界上没有两片完全相同的树叶。”

 

对于干细胞生物学家来说,他们一直以来怀疑猜测两个遗传物质上克隆的干细胞是否完全相同。近日,这一生物学领域的惊人多样性现象在西雅图得以进一步确认——6000多张荧光标记的诱导性多能干细胞(iPS)图片揭示了大量丰富的细胞生物学基础信息。

 

细胞生物学家们整合了大型3D成像数据,应用人工智能、机器深度学习和CRISPR基因编辑,创建了可视化的细胞组织预测模型和其他一系列强大工具,从而允许研究人员预测可能预示癌症和其他疾病的细胞布局变化。

 

这些工具可能通过揭示细胞结构层面意想不到的数据结果,加速干细胞研究、癌症研究和药物开发方面的进展。他说道:“细胞是非常复杂的,它涉及成千上万的相互作用部件,一起协调工作来驱动和调节细胞结构及行为。”

 

产生Allen Cell Explorer的流程(图片来源:艾伦细胞科学研究所)

 

 

为了创建模型,研究人员对数千个人类干细胞的高质量图像进行了“培训”,以了解干细胞组件的组织方式。具体来说,计算机科学家使用深度学习程序分析了数千个图像,并发现了细胞胞内结构位置之间的关系。然后,他们使用这些信息来预测结构可能的位点,比如当使用程序改变细胞核的位置之时。该计划旨在通过将其预测结果与实际细胞进行比较来“深度学习”。

研究人员使用‘深入学习’来尝试了解实际上细胞如何组织自我的难题。而以前的科学研究大体依赖于教科书的示意图画,这些示意画是基于艺术科学家对相对较少数量的细胞数据的诠释。未来简单示意图最终将被数量众多的细胞数据驱动模型所取代。

 

并行文件系统支持海量干细胞图像高效存储

科学家们通过AI深度学习技术对于干细胞进行了大量的图像分析,建立模型,来进一步的探索人生生命的奥秘。从第一章所引用的文章可以看出,科学家们的深度学习必须建立在海量的数据的基础之上,并且采用了种种计算机手段对于海量的干细胞图像进行快速的建模并对于干细胞后续写变化进行预测。在对于海量数据进行AI深度学习的过程中,选择一套能够支撑快速高效的将干细胞数据存储并能够快速检索读取访问的存储系统,能够极大的加速生命科学的探索过程。

星实公司推出了面向高性能、海量数据应用场景的StarGFS并行文件系统,已经在基因测序、生物电镜等诸多生命科学领域支撑了海量的科研数据集中高效的存储。

 

---------------------------------------------------------------------------------------

StarGFS并行文件系统方案介绍

StarGFS并行文件系统是一个性能为中心,围绕简单易用、易安装以及易管理而设计的领先并行文件系统,具有高性能、高可靠、出众的小文件性能等诸多特点。

 

出众的性能

StarGFS是以性能为中心,采用了集群架构设置,系统支持无上限的扩展,理论上能扩展到EB级别。单一集群承载上万台服务器。整个系统能提供上百GB/s的吞吐带宽。

 

针对海量小文件高吞吐率、高效检索技术

深度学习场景具有很多图片和文件参与模型的训练,这些大量的图片和文档都比较小,一般都在10M以下并且数量巨大,大的模型甚至有上百万个文件。

StarGFS结合高性能计算应用文件创建、访问以及目录结构特点,研制了多元数据服务器集群技术。在一套存储系统中可以根据用户生产系统中实际产生文件数量的规模对元数据服务器集群进行动态配置,整个存储系统中所有的元数据服务器同时参与文件的检索和定位工作,消除存储系统中元数据通道的瓶颈,同时还可以根据后续应用特点的变化和需求的增强,做到在线扩展元数据服务器,并且达到即插即用的效果。

同时StarGFS充分利用SSD的高IOPS特点,设计了SSD动态缓存技术,提升文件系统在海量小文件场景的IOPS/OPS。

 

创新小文件容器Container存储技术

StarGFS采用了小文件容器Container聚合存储技术,将小文件进行聚合存储,小文件像大文件一样的存储,减少了元数据的操作量。十几倍的提升了小文件的读取效率。

 

2 小文件容器Container存储技术

 

3 小文件容器Container存储技术对于性能提升的变化

 

数据安全

StarGFS支持N+M纠删码(在保证系统高并发读写的前提下,还能通过纠删码保证节点级的冗余。能保证系统在数据安全性、高并发读写、高空间利用率三者皆得。

 

面向高性能计算的智能数据缓存技术

 

StarGFS多级缓存机制

 

高效的数据缓存技术能够帮助存储系统发挥更好的性能,提高计算任务的效率。StarGFS采用多级智能数据缓存技术来实现高效缓存。

首先,通过应用服务器上自主研发客户端内核模块,分析应用访问数据的特点,采用特定的缓存算法在应用服务器上有效缓存应用的访问数据;

其次,将所有存储服务器的内存集合起来形成一个大的缓存池,通过存储服务器上独特的缓存算法缓存不同应用访问的数据;

最后,将所有元数据服务器的内存集合起来形成一个高效的元数据缓存池,通过复杂的元数据淘汰算法来缓存元数据信息。通过这样多级数据的缓存技术,会使得整个存储系统的性能能够得到大幅提高。

 

StarGFS方案配置

StarGFS支持跟应用融合的模式部署,即每台GPU服务器同时跑GPU计算,又作为存储服务器的角色来实现配置。

 

StarGFS并行文件系统&GPU/CPU计算融合部署运行

 

存储计算分离的架构图

 

StarGFS典型生命科学应用案例

  • 西安某高校:生物电镜数据存储,PB级规模,应用生物电镜所产生的的数据存储;
  • 上海某医药公司:构建StarGFS 1PB规模,并使用StarDM实现了数据多存储复制实现保护;
  • 北京某基因科技有限公司:15年上线,PB级。支撑海量基因组数据的存储和分析;
  • 上海某生物科技有限公司:2PB,支撑海量基因组数据的存储和分析;
首页    解决方案    生命科学

相关案例

  • 中国电信-海量视频点播

    随着互联网技术的逐渐成熟和创新模式的不断涌现,用户与互联网之间的交互越来越多,用户的浏览习惯也逐渐从简单的文字转向了更加丰富多彩的视讯类内容。互联网用户可以自由发挥丰富的想象力和创新能力贡献出大量极具观赏性的视讯内容,极大的丰富了互联网内涵,也吸引了越来越多的眼球。视讯网站吸引了大量忠实的用户并迅速地发展,用户又不断的参与到视讯内容作者的队伍中,规模几乎呈爆炸性的增长。在这样背景下,视讯应用的多种特点给存储系统带来了严峻的挑战。

    67 ¥ 0.00
  • 某保险公司-保险影像数据

    一直以来,作为传统行业,保险公司的存储系统普遍采用集中式的SAN和NAS存储。这种采用专业硬件的紧耦合架构设计的传统集中式存储一直主导着险企存储技术的发展,而且长期以来都作为各种保险业务、ERP、邮件的主存储系统,因此我们的关注点也大多集中在如何提高这些专用存储系统的性能、安全性和可管理性上。但随着企业的发展,保险业务量的激增,企业信息系统出现越来越多的非结构化数据。影像系统是非结构化数据的一个主要来源,已经积累了数十亿的文件量,占用了近PB的空间。这些非结构化数据主要存放在上述集中式存储上。

    111 ¥ 0.00
  • 浙江某精密制造企业-人工智能

    2012年以后,得益于数据量的上涨、运算力的提升和机器学习新算法(深度学习)的出现,人工智能开始大爆发。人工智能广泛的采用深度学习来实现,目前大部分的深度学习算法研究都基于GPU架构的超算平台。GPU+人工智能算法在很多领域都取得了很好的应用效果,如信号处理、物理模拟、几何计算、数据挖掘和图像处理等领域。HPC和AI正走的越来越近。

    浙江某精密制造企业为了能够更好的进行生产制造,采用了人工智能技术来对相关生产数据进行更深度的分析,从而获得对于更多优化生产和制造相关的方案。

    84 ¥ 0.00
  • 上海某三甲医院-医疗影像数据

    上海市某知名三甲医院是一所集医疗、教学、科研、预防、保健、康复、急救为一体的三级甲等综合性医院,是上海市医保和新农合定点医院,是国家执业医师资格临床技能考试基地、国家住院医师培训基地、上海市住院医师规范化培训基地、上海市临床专科培训基地,先后荣获全国百佳医院、上海市文明单位等荣誉称号。

    92 ¥ 0.00
  • 环球数码-影视动漫制作

    在动漫行业的应用中,3D建模渲染、动画、视频游戏、影视后期等图形密集型应用对硬件处理性能和网络带宽都有较高要求。随着高清、2K甚至4K电影的制作需求的增长,以往的NAS系统统一存储空间不足,从而成为了整套系统的限制;NAS头成为限制前端计算节点任务运行效率的重要因素;传统方案存储系统的业务访问连续性不足。传统的存储解决方案难以满足集群制作与渲染对于存储带宽和容量的需求,成为了制作流程中的瓶颈。

    103 ¥ 0.00