Начало работы с Amazon EMR

Как использовать EMR

1 Создайте приложение обработки данных

Можно использовать Java, Hive (язык на основе SQL), Pig (язык обработки данных), Cascading, Ruby, Perl, Python, R, PHP, C++ или Node.js. Amazon EMR предоставляет образцы кода и руководства, чтобы помочь вам начать работу и быстро запустить приложение.

2 Загрузите приложение и данные в Amazon S3

Если требуется загрузить большой объем данных, можно воспользоваться решением AWS Import/Export Snowball для загрузки данных с помощью физического устройства хранения или сервисом AWS Direct Connect для загрузки данных из центра обработки данных в AWS с помощью выделенного сетевого подключения. Можно также записать данные напрямую в работающий кластер.

3 Настройте и запустите кластер

С помощью Консоли управления AWS, AWS CLI, SDK или API укажите число инстансов Amazon EC2, выделяемых для кластера, типы используемых инстансов (стандартные, с преобладанием памяти, с преобладанием ресурсов ЦП, с высокой производительностью ввода-вывода и т. д.), приложения для установки (Apache Spark, Apache Hive, Apache HBase, Presto и т. д.), а также местоположение приложений и данных. Для установки дополнительного ПО или изменения настроек по умолчанию можно использовать действия при начальной загрузке.

4 Следите за работой кластера

Вы можете отслеживать состояние и выполнение работы кластера с помощью консоли управления, интерфейса командной строки, SDK или API. EMR интегрируется с Amazon CloudWatch для мониторинга и отправки оповещений и поддерживает такие широко распространенные инструменты мониторинга, как Ganglia. Если объем обрабатываемых данных возрастет или сократится, вы в любой момент можете изменить размер кластера, добавив или удалив ресурсы. Для удобства устранения неполадок в консоли предусмотрен простой графический пользовательский интерфейс для отладки.

5 Получите выходные данные

Получить выходные данные можно из хранилища Amazon S3 или HDFS кластера. Визуализируйте данные с помощью таких инструментов, как Amazon QuickSight, Tableau и MicroStrategy. Amazon EMR автоматически остановит кластер после завершения обработки. Можно не останавливать кластер, а назначить новые задания.

Вы готовы запустить свой первый кластер?

Нажмите здесь, чтобы запустить кластер с помощью консоли управления Amazon EMR. На странице создания кластера перейдите в раздел расширенных настроек кластера, нажмите на серую кнопку «Создать демонстрационное приложение» в верхнем правом углу, если вы хотите запустить демонстрационное приложение с образцами данных.

Видео

Будьте в курсе последних событий с вебинарами AWS

Video

A technical introduction to Amazon EMR (50:44)

Посмотреть видео

Video

Amazon EMR deep dive & best practices (49:12)

Посмотреть видео

Учебные пособия

Проходите обучение в удобном темпе, используя другие учебные пособия

Spark

Real-time stream processing using Apache Spark streaming and Apache Kafka on AWS

Узнайте, как настроить Apache Kafka на EC2, использовать Spark Streaming на EMR для обработки данных, поступающих в темы Apache Kafka, и выполнять запросы к данным потоковой передачи с помощью Spark SQL на EMR.

Читать блог

Spark

Large-scale machine learning with Spark on Amazon EMR

Узнайте, как Intent Media использует Spark и Amazon EMR в своих процессах моделирования.

Читать блог

HBase

Работа с SQL-запросами с низкими задержками и вторичными индексами с помощью Phoenix и HBase

Узнайте о том, как подключиться к Phoenix, используя JDBC, создать представление по существующей таблице HBase или дополнительный индекс для повышения скорости чтения.

Читать блог

HBase

Использование HBase вместе с Hive для выполнения аналитических нагрузок в базах данных NoSQL

Узнайте, как запустить кластер EMR с помощью HBase и восстановить таблицу из снимка состояния в Amazon S3.

Читать блог

Presto

Запуск кластера Amazon EMR с Presto и Airpal

Узнайте, как настроить кластер Presto и использовать Airpal для обработки данных, хранящихся в S3.

Читать блог

Hive

Использование HBase вместе с Hive для выполнения аналитических нагрузок в базах данных NoSQL

Узнайте, как запустить кластер EMR с помощью HBase и восстановить таблицу из снимка состояния в Amazon S3.

Читать блог

Hive

Process and analyze big data using Hive on Amazon EMR and MicroStrategy Suite

Узнайте, как подключиться к потоку заданий Hive, запущенному на Amazon Elastic MapReduce, чтобы создать безопасную и расширяемую платформу для создания отчетов и аналитики.

Читать статью

Flink

Build a real-time stream processing pipeline with Apache Flink on AWS

В этом учебном пособии описывается эталонная архитектура для последовательного, масштабируемого и надежного конвейера обработки потоков на основе Apache Flink с использованием Amazon EMR, Amazon Kinesis и Amazon Elasticsearch Service.

Читать блог

Обучение и справка

Краткосрочные проекты

Если вам нужна помощь в проверке опытного образца или по настройке приложений EMR, то в AWS есть глобальная служба поддержки, которая специализируется на EMR. Свяжитесь с нами, если вам потребуется дополнительная информация о платных краткосрочных проектах поддержки (от 2 до 6 недель).

Учебный курс AWS в области больших данных

Курс Big Data on AWS разработан для практического обучения использованию сервисов Amazon Web Services для взаимодействия с рабочими нагрузками, связанными с большими данными. AWS научит вас использовать Amazon EMR для обработки данных с помощью развитой системы инструментов Hadoop, таких как Pig или Hive. Кроме того, вы научитесь создавать в облаке среды с большими данными с помощью Amazon DynamoDB и Amazon Redshift, понимать достоинства Amazon Kinesis, а также выбирать лучшие методы создания сред с большими данными для повышения качества аналитики, безопасности и экономичности. Для того чтобы узнать больше о курсе по большим данным, нажмите здесь.

Дополнительное обучение

Адаптируемые стационарные курсы Scale Unlimited предназначены для быстрого обучения сотрудников вашей компании работе с EMR и другими технологиями больших данных. Для получения дополнительной информации нажмите здесь.

Дополнительные ресурсы

Stay connected with AWS

Дальнейшие шаги

Начало работы

Учебное пособие по началу работы

Подробнее

Resources

Дополнительные ресурсы по Amazon EMR

Перейти на страницу ресурсов

Free Tier

Зарегистрируйте бесплатный аккаунт

Регистрация

Console

Готовы приступить к разработке?

Начало работы с Amazon EMR

Начало работы с Amazon EMR

Как использовать EMR

1

Создайте приложение обработки данных

2

Загрузите приложение и данные в Amazon S3

3

Настройте и запустите кластер

4

Следите за работой кластера

5

Получите выходные данные

Вы готовы запустить свой первый кластер?

Видео

A technical introduction to Amazon EMR (50:44)

Amazon EMR deep dive & best practices (49:12)

Учебные пособия

Real-time stream processing using Apache Spark streaming and Apache Kafka on AWS

Large-scale machine learning with Spark on Amazon EMR

Работа с SQL-запросами с низкими задержками и вторичными индексами с помощью Phoenix и HBase

Использование HBase вместе с Hive для выполнения аналитических нагрузок в базах данных NoSQL

Запуск кластера Amazon EMR с Presto и Airpal

Использование HBase вместе с Hive для выполнения аналитических нагрузок в базах данных NoSQL

Process and analyze big data using Hive on Amazon EMR and MicroStrategy Suite

Build a real-time stream processing pipeline with Apache Flink on AWS

Обучение и справка

Краткосрочные проекты

Учебный курс AWS в области больших данных

Дополнительное обучение

Дополнительные ресурсы

Блог, посвященный большим данным

Блог, посвященный машинному обучению

Документация

Вопросы и ответы

Статьи и учебные пособия

Центр экономии облака AWS

Калькулятор цен AWS

AWS Trusted Advisor

Планы AWS Support

Дальнейшие шаги

Учебное пособие по началу работы

Дополнительные ресурсы по Amazon EMR

Зарегистрируйте бесплатный аккаунт

Готовы приступить к разработке?

Прекращение поддержки Internet Explorer