Проект «1000 геномов» – совместная международная инициатива по созданию самой подробной на сегодня карты генетических вариаций человека, включающей ОНП, структурные варианты и контекст гаплотипа. В ходе финальной фазы проекта было секвенировано более 2500 человек из 26 различных этногрупп со всего мира и произведен интегрированный набор фазированных гаплотипов более чем с 80 млн вариантов для этих людей.
Зеркальная копия в Amazon содержит полный пакет данных проекта, доступный по адресу: s3.amazonaws.com/1000genomes.
Дополнительную информацию см. на веб-сайте http://www.1000genomes.org. Если у вас возникли вопросы, обратитесь по адресу info@1000genomes.org.
AWS предоставляет всем желающим доступ к данным проекта «1000 геномов» абсолютно бесплатно. Публичные пакеты данных на платформе AWS предоставляют централизованный репозиторий публичных данных, размещенный в хранилище Amazon Simple Storage Service (Amazon S3). Доступ к данным могут эффективно осуществлять такие сервисы AWS, как Amazon Elastic Compute Cloud (Amazon EC2) и Amazon Elastic MapReduce (Amazon EMR), которые позволяют организациям воспользоваться высокомасштабируемыми вычислительными ресурсами, необходимыми для работы с подобными крупными наборами данных. AWS не взимает плату за хранение публичных пакетов данных, предназначенных для массового использования. Исследователи оплачивают только дополнительные ресурсы AWS, необходимые для дальнейшей обработки или анализа данных. Подробнее о публичных пакетах данных на AWS.
Новейшие данные проекта «1000 геномов» доступны для всех в корзине 1000genomes сервиса Amazon S3.
Получить доступ к данным можно с помощью простых HTTP-запросов или SDK платформы AWS на следующих языках: Ruby, Java, Python, .NET и PHP.
Для выполнения углубленного анализа данных исследователи могут использовать Amazon EC2 – сервис вычислений, предоставляемых как услуги. Этот вариант не требует капитальных инвестиций, обычно необходимых для обработки данных в подобном масштабе. AWS также предлагает различные сервисы оркестрации и автоматизации, которые позволяют группам специалистов делиться результатами исследований с другими учеными в целях переосмысления и дальнейшего использования.
Обеспечение доступа к данным с помощью корзин сервиса Amazon S3 также означает, что клиенты могут обрабатывать информацию с помощью Hadoop в Amazon Elastic MapReduce и воспользоваться преимуществами постоянно расширяющегося набора инструментов для запуска схем обработки биоинформационных заданий, таких как CloudBurst и Crossbow.
Национальный центр биотехнологической информации (NCBI), подразделение Национальной библиотеки медицины при Национальных институтах здравоохранения (NIH):
- ftp://ftp-trace.ncbi.nlm.nih.gov/1000genomes
- ftp6.ncbi.nlm.nih.gov (для доступа по IPv6)
- «1000 геномов»: NCBI/NLM/NIH (для доступа с помощью Aspera)
Европейский институт биоинформатики (EMBL-EBI) при поддержке фонда Wellcome Trust:
- ftp://ftp.1000genomes.ebi.ac.uk/vol1/
- http://www.1000genomes.org/aspera (для доступа с помощью Aspera)
Преподаватели, научные сотрудники и студенты могут подать заявку на бесплатное кредитование, которое позволит воспользоваться вычислительной платформой, предоставляемой AWS как сервис, в совокупности с публичными пакетами данных, например данными проекта «1000 геномов». Вы можете подать заявку на получение гранта AWS, если ведете семинар по геномике или исследовательский проект, в котором могут быть использованы пакеты данных проекта «1000 геномов».