Начало работы с Amazon EMR

Как использовать EMR

1

Создайте приложение обработки данных

Можно использовать Java, Hive (язык на основе SQL), Pig (язык обработки данных), Cascading, Ruby, Perl, Python, R, PHP, C++ или Node.js. Amazon EMR предоставляет образцы кода и руководства, чтобы помочь вам начать работу и быстро запустить приложение.

2

Загрузите приложение и данные в Amazon S3

Если требуется загрузить большой объем данных, можно воспользоваться решением AWS Import/Export Snowball для загрузки данных с помощью физического устройства хранения или сервисом AWS Direct Connect для загрузки данных из центра обработки данных в AWS с помощью выделенного сетевого подключения. Можно также записать данные напрямую в работающий кластер.

3

Настройте и запустите кластер

С помощью Консоли управления AWS, AWS CLI, SDK или API укажите число инстансов Amazon EC2, выделяемых для кластера, типы используемых инстансов (стандартные, с преобладанием памяти, с преобладанием ресурсов ЦП, с высокой производительностью ввода-вывода и т. д.), приложения для установки (Apache Spark, Apache Hive, Apache HBase, Presto и т. д.), а также местоположение приложений и данных. Для установки дополнительного ПО или изменения настроек по умолчанию можно использовать действия при начальной загрузке.

4

Следите за работой кластера

Вы можете отслеживать состояние и выполнение работы кластера с помощью консоли управления, интерфейса командной строки, SDK или API. EMR интегрируется с Amazon CloudWatch для мониторинга и отправки оповещений и поддерживает такие широко распространенные инструменты мониторинга, как Ganglia. Если объем обрабатываемых данных возрастет или сократится, вы в любой момент можете изменить размер кластера, добавив или удалив ресурсы. Для удобства устранения неполадок в консоли предусмотрен простой графический пользовательский интерфейс для отладки.

5

Получите выходные данные

Получить выходные данные можно из хранилища Amazon S3 или HDFS кластера. Визуализируйте данные с помощью таких инструментов, как Amazon QuickSight, Tableau и MicroStrategy. Amazon EMR автоматически остановит кластер после завершения обработки. Можно не останавливать кластер, а назначить новые задания.

Вы готовы запустить свой первый кластер?

Нажмите здесь, чтобы запустить кластер с помощью консоли управления Amazon EMR. На странице создания кластера перейдите в раздел расширенных настроек кластера, нажмите на серую кнопку «Создать демонстрационное приложение» в верхнем правом углу, если вы хотите запустить демонстрационное приложение с образцами данных.

Обучение и справка

Если вам нужна помощь в проверке опытного образца или по настройке приложений EMR, то в AWS есть глобальная служба поддержки, которая специализируется на EMR. Свяжитесь с нами, если вам потребуется дополнительная информация о платных краткосрочных проектах поддержки (от 2 до 6 недель).

Курс Big Data on AWS разработан для практического обучения использованию сервисов Amazon Web Services для взаимодействия с рабочими нагрузками, связанными с большими данными. AWS научит вас использовать Amazon EMR для обработки данных с помощью развитой системы инструментов Hadoop, таких как Pig или Hive. Кроме того, вы научитесь создавать в облаке среды с большими данными с помощью Amazon DynamoDB и Amazon Redshift, понимать достоинства Amazon Kinesis, а также выбирать лучшие методы создания сред с большими данными для повышения качества аналитики, безопасности и экономичности. Для того чтобы узнать больше о курсе по большим данным, нажмите здесь.

Адаптируемые стационарные курсы Scale Unlimited предназначены для быстрого обучения сотрудников вашей компании работе с EMR и другими технологиями больших данных. Для получения дополнительной информации нажмите здесь.