Начало работы с Amazon EMR
Как использовать EMR
Создайте приложение обработки данных
Можно использовать Java, Hive (язык на основе SQL), Pig (язык обработки данных), Cascading, Ruby, Perl, Python, R, PHP, C++ или Node.js. Amazon EMR предоставляет образцы кода и руководства, чтобы помочь вам начать работу и быстро запустить приложение.
Загрузите приложение и данные в Amazon S3
Если требуется загрузить большой объем данных, можно воспользоваться решением AWS Import/Export Snowball для загрузки данных с помощью физического устройства хранения или сервисом AWS Direct Connect для загрузки данных из центра обработки данных в AWS с помощью выделенного сетевого подключения. Можно также записать данные напрямую в работающий кластер.
Настройте и запустите кластер
С помощью Консоли управления AWS, AWS CLI, SDK или API укажите число инстансов Amazon EC2, выделяемых для кластера, типы используемых инстансов (стандартные, с преобладанием памяти, с преобладанием ресурсов ЦП, с высокой производительностью ввода-вывода и т. д.), приложения для установки (Apache Spark, Apache Hive, Apache HBase, Presto и т. д.), а также местоположение приложений и данных. Для установки дополнительного ПО или изменения настроек по умолчанию можно использовать действия при начальной загрузке.
Следите за работой кластера
Вы можете отслеживать состояние и выполнение работы кластера с помощью консоли управления, интерфейса командной строки, SDK или API. EMR интегрируется с Amazon CloudWatch для мониторинга и отправки оповещений и поддерживает такие широко распространенные инструменты мониторинга, как Ganglia. Если объем обрабатываемых данных возрастет или сократится, вы в любой момент можете изменить размер кластера, добавив или удалив ресурсы. Для удобства устранения неполадок в консоли предусмотрен простой графический пользовательский интерфейс для отладки.
Получите выходные данные
Получить выходные данные можно из хранилища Amazon S3 или HDFS кластера. Визуализируйте данные с помощью таких инструментов, как Amazon QuickSight, Tableau и MicroStrategy. Amazon EMR автоматически остановит кластер после завершения обработки. Можно не останавливать кластер, а назначить новые задания.
Вы готовы запустить свой первый кластер?
Нажмите здесь, чтобы запустить кластер с помощью консоли управления Amazon EMR. На странице создания кластера перейдите в раздел расширенных настроек кластера, нажмите на серую кнопку «Создать демонстрационное приложение» в верхнем правом углу, если вы хотите запустить демонстрационное приложение с образцами данных.