Produtos ›  Machine learning  › AWS HealthOmics  › Preço do AWS HealthOmics

 

 

Visão geral

O AWS HealthOmics ajuda os clientes a acelerar os avanços científicos com uma infraestrutura totalmente gerenciada de bioinformática e descoberta de medicamentos, projetada para lidar com fluxos de trabalho e armazenamento em grande escala. Com o HealthOmics, você paga apenas pelo que usa e não há custos de licenciamento.

O HealthOmics oferece dois tipos de fluxos de trabalho. Os fluxos de trabalho privados são fluxos de trabalho personalizados definidos pelo usuário que permitem que você traga seus próprios scripts de bioinformática escritos nas linguagens de fluxo de trabalho mais usadas. O preço dos fluxos de trabalho privados é baseado nos recursos computacionais e do sistema de arquivos solicitados para cada execução. Os fluxos de trabalho do Ready2Run são pipelines de bioinformática pré-construídos com base em análises comuns do setor, e você paga um custo fixo por execução.

O HealthOmics oferece dois tipos de armazenamento. Armazenamentos de referência e sequência são armazenamentos de dados para objetos que usam hierarquização, compressão e catalogação de metadados para permitir o armazenamento e a organização econômicos de dados de bioinformática. O preço é baseado no tamanho do objeto armazenado e na camada de dados. O armazenamento de variantes e anotações são armazenamentos de ETL zero que extraem dados importantes de dados de bioinformática para criar um data lake otimizado para pesquisa e criação de coortes. O preço é baseado no tamanho do armazenamento das informações extraídas.

Você pode usar fluxos de trabalho e armazenamentos de dados juntos ou separadamente, conforme necessário. Se você estiver disposto a assumir um compromisso de uso por três ou cinco anos, entre em contato conosco para obter preços com desconto.

Nível gratuito

Como parte do nível gratuito da AWS, você pode começar a usar o AWS HealthOmics gratuitamente. Após a inscrição, os novos clientes da AWS recebem até 275 horas de instância omics.m.xlarge (ou equivalente) e 49 mil gigabytes/hora de armazenamento de execução para executar fluxos de trabalho privados, 1.500 gigabases/mês de armazenamento ativo e de arquivamento no armazenamento de sequências e 200 gigabytes/mês de armazenamento no armazenamento variante. Seu uso do nível gratuito é calculado a cada mês em todas as regiões, exceto nas regiões AWS GovCloud (EUA), e é aplicado automaticamente à sua fatura. O uso mensal não utilizado não é acumulado para o próximo mês. Há restrições. Consulte os termos para obter mais detalhes.

 

Uso do nível gratuito por mês pelos primeiros dois meses

Fluxos de trabalho do AWS HealthOmics

Fluxos de trabalho privados: 275 horas de instância omics.m.xlarge ou instâncias de computação equivalentes e 49 mil GB/hora de armazenamento de execuções

Armazenamentos de dados do HealthOmics Armazenamento de sequências: 1500 gigabase-meses na classe de armazenamento ativo e 1500 gigabase-meses na classe de armazenamento de arquivo

Armazenamento de variantes: 200 gigabytes-meses

Os clientes da AWS recebem 100 GB de transferência de dados para a Internet todos os meses, agregados em todos os Serviços e regiões da AWS (exceto China e GovCloud).

Preços de fluxos de trabalho privados

Os fluxos de trabalho privados são personalizados e você os define com base na linguagem de fluxo de trabalho de sua escolha para executar pipelines de bioinformática ou descoberta de medicamentos. O custo tem dois componentes: instâncias de tarefas de fluxo de trabalho e armazenamento de execuções.

A cobrança é feita de acordo com a instância omics usada para cada tarefa em seu fluxo de trabalho. Cada tarefa em seu fluxo de trabalho é mapeada para a menor instância omics disponível que satisfaça as vCPUs, a memória e/ou as GPUs solicitadas para a tarefa. Por exemplo, uma tarefa definida para usar 8 CPUs e 60 GiB de RAM será mapeada para o tipo de instância omics.r.2xlarge para execução. O HealthOmics sempre provisiona exatamente os recursos solicitados. Neste exemplo, 8 CPUs e 60 GiB de RAM estarão disponíveis para a tarefa. As tarefas são cobradas em incrementos de 1 segundo. No entanto, há um limite mínimo de cobrança de 60 segundos por tarefa. Caso você não especifique vCPUs ou memória para uma tarefa, o HealthOmics provisionará automaticamente o menor tipo de instância disponível, omics.c.large, para essas tarefas. Também não há cobrança pela computação associada à preparação de dados (ou seja, importações e exportações) e não há cobranças entre AZs.

Para armazenamento de execuções, você pode escolher um sistema de arquivos provisionado estaticamente com maior throughput de sistema de arquivos ou um sistema de arquivos que seja escalado dinamicamente. O armazenamento de execuções estático está disponível nos seguintes tamanhos: 1.200 GiB, 2.400 GiB e, posteriormente, em incrementos de 2.400 GiB, com um tamanho mínimo provisionado de 1.200 GiBs. O armazenamento de execução dinâmica se expande com o uso e não tem um requisito mínimo de provisionamento de armazenamento.

Você só é cobrado pelos recursos enquanto a execução estiver no estado em execução. Nenhuma cobrança é cobrada por corridas nos estados pendente, inicial ou interrompido. Para execuções canceladas ou que falham, você é cobrado por todos os recursos que foram usados até o ponto de cancelamento ou falha.

Você pode visualizar os custos totais de cada execução em sua fatura da AWS, tornando mais rápido e fácil determinar seus custos. O HealthOmics também fornece uma ferramenta run analyzer decódigo aberto para ajudá-lo a otimizar recursos, custos e performance de execução. Se você planeja executar fluxos de trabalho de produção em grande escala e está disposto a assumir um compromisso de uso de três ou cinco anos, entre em contato conosco para obter preços com desconto.

 

Preços de fluxos de trabalho do Ready2Run

Os fluxos de trabalho Ready2Run são fluxos de trabalho pré-configurados por empresas de software terceirizadas líderes do setor, como NVIDIA, Sentieon, Element Biosciences e Ultima, juntamente com pipelines comuns de código aberto, como fluxos de trabalho do GATK fornecidas pelo Broad Institute e o AlphaFold para previsão da estrutura de proteínas. Você pode simplesmente usar os fluxos de trabalho Ready2Run para processar seus dados sem a necessidade de gerenciar as ferramentas de software ou os scripts de fluxo de trabalho. Os fluxos de trabalho do Ready2Run são pagos por execução e você paga a mesma taxa fixa quando as execuções são concluídas com êxito, independentemente do tempo de execução. Se a execução for cancelada ou não puder ser concluída com êxito na primeira hora, a taxa de custo por execução será rateada com base na primeira hora de uso. As execuções executadas por mais de 1 hora são cobradas pelo preço total da execução. Os fluxos de trabalho do Sentieon Ready2Run exigem uma assinatura separada adquirida da Sentieon. Uma assinatura de avaliação gratuita de duas semanas é fornecida automaticamente pela Sentieon sem custo adicional para usuários iniciantes do Sentieon Ready2Run. Para visualizar informações detalhadas sobre os fluxos de trabalho disponíveis do Ready2Run, incluindo parâmetros de entrada, diagramas de fluxo de trabalho e tempos de execução estimados, visite o console HealthOmics.

Preços do Data Stores

Os armazenamentos de dados da HealthOmics são gerenciados, localizáveis, acessíveis, interoperáveis e reutilizáveis (FAIR) para dados de amostra em grande escala com compressão automática de dados e capacidade de consulta otimizada de variantes/anotações.

O armazenamento de sequências oferece economia de custos por meio de hierarquização e compressão orientadas pelo uso. Os objetos armazenados são agrupados em conjuntos de leitura para organização e localização. Quando você armazena dados no armazenamento de sequência, você paga por gigabase por mês. Um gigabase é um bilhão de bases de arquivos de sequências importados (como FASTQ, BAM e CRAM). Como a cobrança é feita por gigabase, para que não precise se preocupar com formatos de arquivo ideais ou técnicas de compactação. O AWS HealthOmics otimiza isso para você. Os dados no armazenamento de sequências podem ser acessados de duas maneiras: 1/ Por meio de leitura, gravação e atualização de APIs HealthOmics e leitura por meio de APIs do S3. Para acesso por meio das APIs da HealthOmics, você paga pelas solicitações GET feitas aos seus objetos de conjunto de leitura. Todos os outros tipos de solicitação do HealthOmics sobre conjuntos de leitura são gratuitos. 2/ Por meio da lista do S3 e APIs GET. Para acesso por meio das APIs do S3, as solicitações COPY e LIST são cobradas separadamente de todos os outros tipos de solicitação. Para ver como os custos do HealthOmics Sequence Store se comparam às opções alternativas de armazenamento, consulte nosso blog: https://thinkwithwp.com/blogs/industries/store-omics-data-cost-effectively-at-any-scale-with-aws-healthomics/

Os armazenamentos de variantes e anotações usam Zero-ETL para preparar dados de variantes e anotações para consulta, coorte e análise com serviços da AWS, como Amazon Athena e Amazon SageMaker. Os arquivos ingeridos são processados pela HealthOmics e convertidos em formatos otimizados de consulta. Você pode armazenar qualquer quantidade de dados de variantes e anotações e paga apenas pelo que é armazenado. O tamanho dos dados faturados é definido como o tamanho dos dados após a ingestão e a transformação. Os dados no armazenamento de variantes e anotações geralmente são acessados por meio de outros serviços da AWS. Ao consultar e analisar os dados em outros serviços, você pagará pelo uso desses serviços.

Os dados armazenados nos armazenamentos de dados do AWS HealthOmics é cobrada por um período mínimo de armazenamento de 30 dias, e os dados excluídos antes de 30 dias incorrem em uma cobrança pro rata equivalente à cobrança pelo armazenamento pelos dias restantes. 

Exemplos de definição de preço

  • Uma cientista de bioinformática deseja executar um fluxo de trabalho Nextflow em fluxos de trabalho do AWS HealthOmics na região Leste dos EUA (N. da Virgínia). Ela tem três tarefas no fluxo de trabalho. A primeira reserva 16 vCPUs e 30 GB de memória e leva 3 horas para ser executada. A segunda reserva 32 vCPUs e 160 GB de memória e leva 2 horas para ser executada. A terceira reserva 4 vCPUs e 10 GB de memória e leva 10 minutos para ser executada. A cliente registra o fluxo de trabalho e chama a API StartRun com o sistema de arquivos padrão de 1200 GB. Seus custos gerais são:
    Tarefa 1 (omics.c.4xlarge): USD 0,9180/h * 3 h = USD 2,754
    Tarefa 2 (omics.r.8xlarge): USD 2,7216/h * 2 h = USD 5,4432
    Tarefa 3 (omics.m.xlarge): USD 0,2592/h * 1/6 h = USD 0,0432
    Armazenamento estático de execuções: USD 0,0001918/GB-hora * (1200 GB*(3 h+2 h+1/6 h)) = USD 1,18916
    Total: USD 9,42956

  • Um cientista de bioinformática está desenvolvendo um novo fluxo de trabalho da WDL no AWS HealthOmics na região Leste dos EUA (Norte da Virgínia). Ela tem duas tarefas no fluxo de trabalho. A primeira reserva 16 vCPUs e 30 GB de memória e leva 3,5 horas para ser executada. A segunda reserva 32 vCPUs e 160 GB de memória e leva 2,25 horas para ser executada. A cliente registra o fluxo de trabalho e chama a API StartRun com o sistema de arquivos dinâmico. Durante a execução do fluxo de trabalho de 5,75 horas, o sistema de arquivos cresce linearmente de 0 GB para 1.043 GB, totalizando 3.000 GB-h de armazenamento de arquivos. Seus custos gerais são:
    Tarefa 1 (omics.c.4xlarge): USD 0,9180/h * 3,5 h = USD 3,213
    Tarefa 2 (omics.r.8xlarge): USD 2,7216/h * 2,25 h = USD 6,1236
    Armazenamento dinâmico de execuções: USD 0,0004110/GB-h * 3.000 GB-h = USD 1,233
    Total: USD 10,5696

  • Um cientista da computação deseja executar o fluxo de trabalho Ready2Run GATK-BP Germline fq2vcf para genoma 30x na região Leste dos EUA (Norte da Virgínia) para três amostras. O cliente insere seus dados e chama a API StartRun para cada amostra. O custo das três execuções é:
    Fluxo de trabalho Ready2Run GATK-BP Germline fq2vcf para genoma 30x: USD 10,00/execução * 3 = USD 30,00
    Total: USD 30,00

  • Uma iniciativa de sequenciamento populacional está começando a sequenciar indivíduos de um biobanco que eles coletaram. Eles decidem fazer isso na região Oeste da UE (Irlanda). Eles sequenciam 100 mil indivíduos, cada um com 130 gigabases, 50 gigabytes e armazenam os dados brutos de sequenciamento no armazenamento do AWS HealthOmics. Durante os próximos cinco anos, eles permanecem na classe de armazenamento de arquivamento após os 30 dias seguintes à importação e são acessados duas vezes, em média, quando passam para a classe de armazenamento ativo por 30 dias. Eles usam APIs do S3 para acessar os arquivos. Cada genoma é baixado em 500 partes, gerando 500 chamadas de API GET. O custo total ao longo de cinco anos para um único genoma é:
    Classe de armazenamento ativo: USD 0,005769 por gigabase/mês * 130 gigabases * 90 dias = USD 2,22
    Classe de armazenamento de arquivamento: USD 0,001154 por gigabase/mês * 130 gigabases * (1825 – 90) dias = USD 8,56.
    APIs GET do S3: USD 0,0004/1000 chamadas de API * (2 * 500 chamadas de API) = USD 0,0004
    Custo total em 5 anos: USD 2,22 + USD 8,56 + USD 0,0004 = USD 10,78 (ou USD 2,15/ano)

  • Um cientista de dados tem 3.202 arquivos no formato de chamada de variável (VCF) que deseja analisar no Amazon Athena na região Leste dos EUA (Norte da Virgínia). Ele cria um repositório de variáveis e ingere esses arquivos usando as APIs do AWS HealthOmics. Os dados ingeridos têm um tamanho de 1,5 TB. Ao longo do mês seguinte, ele executa 1.000 consultas no Athena, calculando frequências alélicas para diferentes subpopulações, cada uma consumindo em média 50 GB. Seus custos mensais gerais são:
    Armazenamento variável: USD 0,035 por GB/mês * (1024 GB/TB * 1,5 TB) = USD 53,76
    Amazon Athena: USD 5/TB * 1000 * 50 / 1024 = USD 244,14

Preço da transferência de dados

Você paga por toda a largura de banda da HealthOmics. As taxas de transferência de dados não se aplicam aos dados transferidos para nenhum serviço da AWS na mesma região da AWS que o datastore. O preço abaixo é baseado nos dados transferidos para dentro e para fora do AWS HealthOmics (via Internet pública)†††. Saiba mais sobre os preços do AWS Direct Connect. Para transferências de dados que excedam 500 TB/mês, entre em contato conosco.

As camadas de taxa consideram o uso agregado de transferência de dados OUT para a Internet em todos os serviços da AWS.

††† A transferência de dados OUT pode ser diferente dos dados recebidos pela sua aplicação caso a conexão seja encerrada por você antes do tempo. Por exemplo, se você fizer uma solicitação de um objeto de 10 GB e encerrar a conexão após o recebimento de 2 GB de dados. O AWS HealthOmics tenta interromper o streaming de dados, mas isso não acontece instantaneamente. Neste exemplo, a transferência de dados OUT pode ser de 3 GB (1 GB a mais do que os 2 GB que você recebeu). Como resultado, você receberá uma cobrança por 3 GB de transferência de dados de saída.