概览
AWS HealthOmics 通过完全托管的生物信息学和药物研发基础设施(这些基础设施旨在处理大规模的工作流程和存储)来帮助客户加快取得科学上的突破。使用 HealthOmics,您只需按使用量付费,无需支付 HealthOmics 许可费用。
HealthOmics 提供两种类型的工作流。私有工作流是自定义/用户定义的工作流,使您能够使用最常用的工作流语言编写的自己的生物信息学脚本。私有工作流的定价基于每次运行所需的计算和文件系统资源。Ready2Run 工作流是基于常见行业分析的预构建生物信息学管道,您每次运行支付固定费用。
HealthOmics 提供两种类型的存储。参考和序列存储是对象的数据存储,它们使用分层、压缩和元数据编目,以经济高效的方式存储和组织生物信息学数据。定价基于存储的对象大小和数据层。变体和注释存储是零 ETL 存储,可从生物信息学数据中提取关键数据,以创建针对搜索和群组创建进行优化的数据湖。定价基于提取信息的存储大小。
您可以根据需要结合使用工作流和数据存储,也可以单独使用它们。如果您愿意做出三年或五年的使用承诺,请联系我们以获取折扣价格。
免费套餐
作为 AWS Free Tier 的一部分,您可以免费开始使用 AWS HealthOmics。注册后,新 AWS 客户可获得最多 275 个 omics.m.xlarge(或同等)实例小时和 49000GB 小时的运行存储(用于运行私有工作流)、1500 千兆碱基月的序列存储活动和存档存储以及 200GB 月的变体存储存储。除 AWS GovCloud(美国)区域之外,您在其他所有区域的免费套餐使用量均按月计算,自动计入账单,未用完的月使用量不会转入下月。存在限制条件,详细信息见条款。
免费套餐前 2 个月的每个月使用情况 |
|
HealthOmics 工作流 | 私有工作流:275 个 omics.m.xlarge 实例小时或同等计算实例和每小时 49000GB 的运行存储 |
HealthOmics 数据存储 | 序列存储:活动存储类每月 1500 千兆碱基,归档存储类每月 1500 千兆碱基 变体存储:每月 200GB |
AWS 客户每月可将 100GB 的数据传出至互联网,所有 AWS 服务和区域(中国区域和 GovCloud 区域除外)合并计算。
私有工作流定价
私有工作流是您根据所选工作流语言定义的自定义工作流,用于运行生物信息学或药物研发管道。其费用包括两个部分:工作流任务实例和运行存储。
您需要为工作流中每项任务使用的 omics 实例付费。工作流中的每项任务都映射到满足任务请求的 vCPU、内存和/或 GPU 的最小可用 omics 实例。例如,定义为使用 8 个 CPU 和 60 GiB RAM 的任务将映射到 omics.r.2xlarge 实例类型以进行执行。HealthOmics 始终按照请求精确预置资源。在此示例中,任务将可以使用 8 个 CPU 和 60 GiB RAM。任务以 1 秒为增量计费;但是,每项任务的最低计费阈值为 60 秒。如果您没有为任务指定 vCPU 或内存,HealthOmics 将自动为这些任务预置最小可用实例类型 omics.c.large。您也无需为与数据暂存(即导入和导出)相关的计算付费,并且没有跨可用区费用。
对于运行存储,您可以选择具有更高文件系统吞吐量的统计预置文件系统或动态扩展的文件系统。静态运行存储有以下大小可供选择:1200 GiB、2400 GiB,然后以 2400 GiB 为增量,最小预置大小为 1200 GiB。动态运行存储会根据使用情况扩展,并且没有最低存储预置要求。
您只需在运行处于正在运行状态时为资源付费。处于待处理、启动或停止状态的运行不产生任何费用。对于已取消或失败的运行,您需要为在取消或失败之前使用的任何资源付费。
您可以在 AWS 账单上查看每次运行的总费用,从而快速轻松地确定您的成本。HealthOmics 还提供开源运行分析器工具,帮助您优化运行资源、成本和性能。如果您计划大规模运行生产工作流程,并愿意做出三年或五年的使用承诺,请联系我们以获取折扣价格。
Ready2Run 工作流定价
Ready2Run 工作流是预先配置的工作流,由行业领先的第三方软件公司(如 NVIDIA、Sentieon、Element Biosciences 和 Ultima)以及常见的开源管道(如 Broad Institute 的 GATK 工作流和用于蛋白质结构预测的 AlphaFold)设计。只需使用 Ready2Run 工作流程即可处理数据,而无需管理软件工具或工作流程脚本。Ready2Run 工作流是按运行付费的,当运行成功完成时,无论运行时间长短,您都需要支付相同的固定费用。如果运行被取消或无法在第一小时内成功完成,则每次运行的费用将根据第一个小时的使用量按比例计算。执行时间超过 1 小时的运行将按全价收费。Sentieon Ready2Run 工作流需要从 Sentieon 购买单独的订阅。Sentieon 会自动为首次使用 Sentieon Ready2Run 的用户免费提供为期两周的免费评估订阅。要查看可用的 Ready2Run 工作流程的详细信息,包括输入参数、工作流程图和预计运行时间,请访问 HealthOmics 控制台。
数据存储定价
HealthOmics 数据存储是一种可查找、可访问、可互操作且可重复使用(FAIR)的托管式存储,适用于大规模样本数据,具有自动数据压缩和优化的变体/注释可查询性。
序列存储通过使用驱动的分层和压缩来节省成本。存储的对象按读取集分组,以便组织和查找。当您将数据存储在序列存储中时,您需要按每月每千兆碱基付费。一千兆碱基即导入的序列文件(如 FASTQ、BAM 和 CRAM)中的十亿个碱基。由于按千兆碱基计费,因此您无需担心最佳文件格式或压缩技术。AWS HealthOmics 会为您优化这一点。序列存储中的数据可以通过两种方式访问:1/ 通过读取、写入和更新 HealthOmics API 以及通过 S3 API 读取。要通过 HealthOmics API 进行访问,您需要为对读取集对象发出的 GET 请求付费。对读取集发出的所有其他 HealthOmics 请求类型均免费。2/ 通过 S3 列表和获取 API。对于通过 S3 API 进行的访问,COPY 和 LIST 请求与所有其他请求类型分开计费。要了解 HealthOmics 序列存储成本与其他存储选项的比较,请参阅我们的博客:https://thinkwithwp.com/blogs/industries/store-omics-data-cost-effectively-at-any-scale-with-aws-healthomics/
变体和注释存储使用零 ETL 准备变体和注释数据,以便使用 AWS 服务(例如 Amazon Athena 和 Amazon SageMaker)进行查询、分组和分析。摄取的文件由 HealthOmics 处理并转换为查询优化格式。您可以存储任意数量的变体和注释数据,并且只需为存储的内容付费。计费数据大小定义为摄取和转换后的数据大小。变体和注释存储中的数据通常通过其他 AWS 服务访问。当您查询和分析其他服务中的数据时,您需要为使用这些服务付费。
存储在 AWS HealthOmics 数据存储中的数据的最短存储期限为 30 天,在 30 天之内删除的数据会产生与用尽剩余天数的存储费用相同的预估费用。
定价示例
-
定价示例 1:带有静态运行存储的私有工作流
一位生物信息学科学家想要在美国东部(弗吉尼亚州北部)区域的 AWS HealthOmics 工作流中运行 Nextflow 工作流。她在工作流程中有三个任务。第一个是保留 16 个 vCPU 和 30 GB 内存,运行需要 3 小时。第二个是需要 32 个 vCPU 和 160 GB 内存,运行需要 2 小时。第三个是保留 4 个 vCPU 和 10 GB 内存,运行需要 10 分钟。客户注册工作流程并使用默认的 1200GB 文件系统调用 StartRun API。她的总费用是:
任务 1(omics.c.4xlarge):每小时 0.9180 USD * 3 小时 = 2.754 USD
任务 2(omics.r.8xlarge):每小时 2.7216 USD * 2 小时 = 5.4432 USD
任务 3(omics.m.xlarge):每小时 0.2592 USD * 1/6 小时 = 0.0432 USD
静态运行存储:每小时每 GB 0.0001918 USD *(1200GB*(3 小时+2 小时+1/6 小时))= 1.18916 USD
合计:9.42956 USD -
定价示例 2:带有动态运行存储的私有工作流
一位生物信息学科学家正在美国东部(弗吉尼亚州北部)区域的 AWS HealthOmics 中开发新的 WDL 工作流程。她在工作流程中有两个任务。第一个是保留 16 个 vCPU 和 30 GB 内存,运行需要 3.5 小时。第二个是需要 32 个 vCPU 和 160 GB 内存,运行需要 2.25 小时。客户注册工作流程并使用动态文件系统调用 StartRun API。在 5.75 小时的工作流程运行过程中,文件系统从 0GB 线性增长到 1043GB,文件存储空间总计 3000GB-小时。她的总费用是:
任务 1(omics.c.4xlarge):每小时 0.9180 USD * 3.5 小时 = 3.213 USD
任务 2(omics.r.8xlarge):每小时 2.7216 USD * 2.25 小时 = 6.1236 USD
动态运行存储:0.0004110/ GB-小时 * 3000 GB-小时 = 1.233 USD
合计:10.5696 USD -
定价示例 3: Ready2Run 工作流
一位计算科学家想要在美国东部(弗吉尼亚州北部)区域为 3 个样本运行 GATK-BP Germline fq2vcf for 30x genome Ready2Run 工作流程。客户输入他们的数据,然后为每个样本调用 StartRun API。3 次运行的成本为:
GATK-BP Germline fq2vcf for 30x genome Ready2Run 工作流程:每次运行 10.00 USD * 3 = 30.00 USD
总计:30.00 USD -
定价示例 4:序列存储
一项种群测序计划开始对它们收集的生物库中的个体进行测序。它们选择在欧洲西部(爱尔兰)区域执行此操作。它们对 100000 个个体进行测序,每个个体为 130 千兆碱基,50 千兆字节,并将原始测序数据存储在 AWS HealthOmics 存储中。在接下来的五年中,它们在导入后的 30 天后仍保留在存档存储类中,并且在过渡到活动存储类 30 天时平均被访问两次。它们使用 S3 API 来访问文件。每个基因组分 500 个部分下载,生成 500 个 GET API 调用。它们在五年内单个基因组的总费用为:
活动存储类:每月每千兆碱基 0.005769 USD * 130 千兆碱基 * 90 天 = 2.22 USD
归档存储类:每月每千兆碱基 0.001154 USD * 130 千兆碱基 *(1825 – 90)天 = 8.56 USD。
S3 GET API:0.0004 USD/1000 个 API 调用 *(2 * 500 个 API 调用)= 0.0004 USD
5 年总费用:2.22 USD + 8.56 USD + 0.0004 USD = 10.78 USD(或每年 2.15 USD)
-
定价示例 5:变体存储
一名数据科学家有 3202 个变体调用格式(VCF)文件,他想在美国东部(弗吉尼亚州北部)区域的 Amazon Athena 中分析这些文件。他创建了一个变体存储,并使用 AWS HealthOmics API 引入这些文件。引入的数据大小为 1.5TB。在接下来的一个月里,他在 Athena 中执行了 1000 次查询,计算不同亚群的等位基因频率,每个亚群平均消耗 50 GB。他每月的总费用是:
变体存储:每月每 GB 0.035 USD *(1024 GB/TB * 1.5 TB)= 53.76 USD
Amazon Athena:每 TB 5 USD * 1000 * 50 / 1024 = 244.14 USD
数据传输定价
您需要为传出 HealthOmics 的所有带宽付费。对于向数据存储所在 AWS 区域内的任何 AWS 服务传输的数据,无需支付数据传输费。以下定价根据通过公共互联网传入和传出 AWS HealthOmics 的数据量进行计算†††。了解有关 AWS Direct Connect 定价的更多信息。如果数据传输量超出 500TB/月,请联系我们。
套餐费率会考虑您在所有 AWS 服务之间将数据传出至互联网的整体使用情况。
††† 如果您永久终止连接(例如,您请求一个 10GB 对象并在收到第一个 2GB 数据后终止连接),数据传出可能与您的应用程序收到的数据不同。AWS HealthOmics 尝试停止数据流,但不会即刻生效。在该示例中,数据传出可能为 3GB(比您所接收的 2GB 多 1GB)。因此,您将支付 3GB 的数据传出费用。