30 小时
将所需的 3000 万 vCPU 小时计算时间缩短到 30 小时,峰值时调动了 218 万个 vCPU
20 PB
首次详尽使用了 20 PB 的 DNA 数据库
AWS 专业知识
提供 AWS 技术资源和支持专业知识
概述
迄今为止,已经发现的现有病毒还不到总数的 0.01%。在这些数不胜数的未知物种当中,有些病毒可能成为未来的流行病的罪魁祸首。在新冠肺炎危机爆发之后,为了更轻松地识别未来的威胁,Institut Pasteur 的一个名为“IndexThePlanet”的研究项目开始利用公共数据库分析和测绘整个生命世界的 DNA。然而,为了处理如此大量的数据,该项目必须建立适当的基础设施,以应对处理大约 20 PB 数据的挑战。这正是与 Amazon Web Services(AWS)合作的目的,Amazon Web Services(AWS)为研究人员提供了一个由 200 多万个 vCPU 组成的集群,以执行这项艰巨的任务。
机会
迄今为止,已经发现的现有病毒只占总数的 0.01%,而且它们的确切数量仍然是一个谜。在这些数不胜数的未知物种当中,有些病毒可能成为未来的流行病的罪魁祸首。在新冠肺炎危机爆发之后,Institut Pasteur 的一个研究团队开始分析和测绘所有生命体的 DNA,以便更轻松地识别未来的威胁。
为了处理如此大量的数据,该团队建立了适当的基础设施,以应对处理 20 PB DNA 数据的挑战。从这个角度来看,这大致相当于 YouTube 在最初的十年中托管的全部数据。这正是与 Amazon Web Services(AWS)合作的目的,Amazon Web Services(AWS)为研究人员提供了一个由 218 万个 vCPU 组成的集群,以执行这项艰巨的任务。
“IndexThePlanet 项目实际上延续了与国际团队共同开展的一个初步研究项目,这个名为 Serratus 的项目鉴定出了冠状病毒和其他 RNA 病毒的新物种,”Institut Pasteur 的生物计算研究员 Rayan Chikhi 指出。它使我们能够测绘的物种数量多达以前的十倍,总共分析了大约 3 PB 的数据。“受到这一初步成功的鼓舞,我们决定进一步扩大范围,将地球上存在的所有病毒包括在内,也就是分析所有已知生命体的 DNA。在计算能力方面,这无疑是一个巨大的挑战,因为这次我们必须处理的数据量是 Serratus 项目的六倍以上。”
“AWS 调动了大量的资源,Graviton 实例在峰值时使用的 vCPU 多达 218 万个。”
“我们估计,一台台式计算机需要将近 3000 万小时或 3400 年才能完成这样的计算。”
解决方案
开发一个 DNA 搜索引擎
对于这项研究,Institut Pasteur 的团队可以访问一个全球数据库,此数据库由 AWS 及其开放数据计划注册表存储并可供科学界访问。此数据库包含地球上的所有生物物种的测序数据。无论这些数据在科学上多么有趣,它们仍然是非结构化的,因此探索起来极其繁琐。因此,IndexThePlanet 项目分为两个具体阶段:首先,对此数据库执行“全球分析”,以使它可读和可用;随后,提供一个搜索引擎,以便能够快速、高效地浏览所创建的索引。此搜索引擎预计在 2026 年之前投入运行。
“为了真正了解我们的工作涉及的利害关系,我们需要将这个数据库视为一个巨大的图书馆,不过所有书籍的所有页面都分散在图书馆的各个角落。IndexThePlanet 面临的挑战是有条不紊地对所有 DNA 片段进行分类,以恢复这些数据的一致性,从而根据生物的规模进行重建,但也要考虑到它们的环境。这是一项艰巨的任务,最终将使整个生物研究界受益,”这名研究人员补充道。
调动了 218 万个 vCPU
因此,Institut Pasteur 求助于 AWS 来建立适当的基础设施,以应对此次大规模处理的挑战。“我们花费了将近一年的时间为这些操作做好准备,最终的计算批处理只持续了 30 小时,”Rayan Chikhi 笑着说道。但这是一次非常棒的批处理! 在处理过程中,AWS 调动了大量的资源,AWS Graviton 实例在峰值时使用的 vCPU 多达 218 万个。相比之下,我们估计,一台台式计算机需要将近 3000 万小时或 3400 年才能完成这样的计算。”
AWS 技术支持
“为了向 Institut Pasteur 的团队提供最好的支持,我们调动了所有可用的资源,”来自 Amazon Web Services 并在整个项目中为研究人员提供支持的 Dorian Schaal 解释道。这包括将计算安排在周末进行,以访问需求较少的资源,因为庞大的资源占据了可用资源的很大一部分。他继续说道:“这个项目的成功让我们的团队感到非常自豪,这将有助于增强 AWS 向全球科学界免费提供的开放数据数据库。”
促进未来的处理
IndexThePlanet 项目创建了两个数据集:一个 2.2 PB 的完整数据集,以及一个更紧凑的约为 400TB 的数据集,它将为未来的基因组搜索引擎奠定基础。它将提供有关全球数据库中的所有病毒和细菌的准确信息。尽管如此,Rayan Chikhi 并没有被这一成功冲昏头脑:“此数据库在陆栖动物多样性方面仍然非常不完整,虽然取得了成功,但这一研究项目只是有可能将已知病毒的数量从 0.01% 增加到 0.1%。不过,就目前的知识而言,这一进展仍然非常可观。” 最终,IndexThePlanet 可以为专门在全球范围内监测流行病的系统奠定基础。从在医院发现一种菌株的那一刻起,就可以将其与地球上的所有遗传物质进行比较,因此节省了寻找治疗方法和疫苗的宝贵时间,并有可能挽救成千上万人的生命。
架构图
结果 | Nunc tincidunt laoreet nunc sed mattis
关于 Institut Pasteur
Institut Pasteur 由 Louis Pasteur 于 1887 年创立,是世界知名的法国生物医学研究中心,从事传染病和公共健康方面的前沿科学研究。
使用的 AWS 服务
Amazon EC2 竞价型实例
Amazon EC2 竞价型实例可让您利用 AWS 云中未使用的 EC2 容量,与按需型实例的价格相比,可享受高达 90% 的折扣。
AWS Graviton
AWS Graviton 是一系列处理器,旨在为在 Amazon Elastic Compute Cloud(Amazon EC2)中运行的云工作负载提供最佳性价比。选择最能满足您需求的基于 AWS Graviton 的实例。
AWS Batch
AWS Batch 是一项完全托管式批处理计算服务,可在 Amazon ECS、Amazon EKS、AWS Fargate 以及竞价型或按需型实例等所有 AWS 计算产品中规划、安排和运行您的容器化批处理机器学习、模拟和分析工作负载。
Amazon S3
Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。
行动起来
无论行业无论规模,每天都有各种机构在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。