Amazon EMR 入门

如何使用 EMR

1 开发数据处理应用程序

您可以使用 Java、Hive（类似 SQL 的语言）、Pig（数据处理语言）、Cascading、Ruby、Perl、Python、R、PHP、C++ 或 Node.js。Amazon EMR 提供代码示例和教程，帮助您快速开始使用并正常运行。

2 将您的应用程序和数据上传到 Amazon S3

如果您要上传大量数据，可以考虑使用 AWS Import/Export Snowball（使用物理存储设备上传数据）或者 AWS Direct Connect（建立从数据中心到 AWS 的专用网络连接）。如果您愿意，还可以直接向正在运行的集群写入数据。

3 配置和启动您的集群

使用 AWS 管理控制台、AWS CLI、开发工具包或 API，指定要在集群中预置的 Amazon EC2 实例数、要使用的实例类型（标准、高内存、高 CPU、高 I/O 等）、要安装的应用程序（Apache Spark、Apache Hive、Apache HBase、Presto 等）以及应用程序和数据的位置。您可以使用引导操作安装其他软件或者更改默认设置。

4 监控集群

您可以使用管理控制台、命令行界面、开发工具包或 API 监控集群的运行状况和进度。EMR 与 Amazon CloudWatch 集成，可用于监控/警报，并支持流行的监控工具，如 Ganglia。您可以随时根据数据的处理情况给集群添加/移除容量。对于故障诊断，您可以使用控制台的简易调试 GUI。

5 检索输出

检索集群上的 Amazon S3 或 HDFS 中的输出。使用工具（如 Amazon QuickSight、Tableau 和 MicroStrategy）直观显示数据。Amazon EMR 会在处理完成时自动终止集群。另一种方法是，让集群处于运行状态并给集群增加工作量。

您是否已做好准备来启动首个集群？

单击此处以通过 Amazon EMR 管理控制台启动集群。如果您要运行带有示例数据的示例应用程序，请在“Create Cluster”页面上转到“Advanced cluster configuration”，然后单击右上方灰色的“Configure Sample Application”按钮。

视频

关注 AWS 网络研讨会，了解最新信息

Video

Amazon EMR 技术简介 (50:44)

观看视频

Video

Amazon EMR 深入探究和最佳实践 (49:12)

观看视频

教程

按照您自己的进度学习其他教程

Spark

使用 AWS 上的 Apache Spark Streaming 和 Apache Kafka 进行实时流处理

了解如何在 EC2 上设置 Apache Kafka、如何使用 EMR 上的 Spark Streaming 处理流入 Apache Kafka 主题的数据以及如何使用 EMR 上的 Spark SQL 查询流数据。

阅读博客

Spark

使用 Amazon EMR 上的 Spark 进行大规模机器学习

了解 Intent Media 如何使用 Spark 和 Amazon EMR 完成建模工作流程。

阅读博客

HBase

借助 Phoenix 和 HBase 实现低延迟的 SQL 访问和二级索引

了解如何使用 JDBC 连接到 Phoenix、如何基于现有 HBase 表创建视图，以及如何创建二级索引以提高读取性能。

阅读博客

HBase

结合使用 HBase 和 Hive for NoSQL 来处理分析工作负载

了解如何使用 HBase 启动 EMR 集群并从 Amazon S3 中的快照还原表。

阅读博客

Presto

借助 Presto 和 Airpal 启动 Amazon EMR 集群

了解如何设置 Presto 集群并使用 Airpal 处理存储在 S3 中的数据。

阅读博客

Hive

结合使用 HBase 和 Hive for NoSQL 来处理分析工作负载

了解如何使用 HBase 启动 EMR 集群并从 Amazon S3 中的快照还原表。

阅读博客

Hive

使用 Amazon EMR 上的 Hive 和 MicroStrategy 套件处理和分析大数据

了解如何连接到在 Amazon Elastic MapReduce 上运行的 Hive 作业流，以创建用于报告和分析的安全且可扩展的平台。

阅读文章

Flink

使用 AWS 上的 Apache Flink 构建实时流处理管道

本教程概述了一个使用 Amazon EMR、Amazon Kinesis 和 Amazon Elasticsearch Service 构建基于 Apache Flink 的一致、可扩展且可靠的流处理管道的参考架构。

阅读博客

培训和帮助

短期参与

您在构建概念证明或进行 EMR 应用程序优化时是否需要协助？ AWS 拥有专精 EMR 的全球支持团队。如果您有兴趣了解更多短期（2 至 6 周）付费支持业务的信息，请联系我们。

AWS 大数据培训

Big Data on AWS 课程旨在从实际操作方面指导您如何使用 Amazon Web Services 处理大数据工作负载。AWS 将向您展示如何使用范围广泛的 Hadoop 工具生态系统（如 Pig 和 Hive）运行 Amazon EMR 作业来处理数据。另外，AWS 还会教您如何使用 Amazon DynamoDB 和 Amazon Redshift 在云中创建大数据环境、使您了解 Amazon Kinesis 的优势，以及帮助您利用最佳实践来设计大数据环境，以实现分析、安全性和成本效益方面的目标。要了解有关大数据课程的更多信息，请单击此处。

其他培训

Scale Unlimited 公司提供定制的现场培训，适合于需要快速了解如何使用 EMR 和其他大数据技术的公司。若要了解更多信息，请单击此处。

其他资源

Stay connected with AWS

后续步骤

入门

入门教程

了解更多

Resources

发现更多 Amazon EMR 资源

访问资源页面

Free Tier

注册免费账户

Console

准备好开始构建？

开始使用 Amazon EMR

Amazon EMR 入门

如何使用 EMR

1

开发数据处理应用程序

2

将您的应用程序和数据上传到 Amazon S3

3

配置和启动您的集群

4

监控集群

5

检索输出

您是否已做好准备来启动首个集群？

视频

Amazon EMR 技术简介 (50:44)

Amazon EMR 深入探究和最佳实践 (49:12)

教程

使用 AWS 上的 Apache Spark Streaming 和 Apache Kafka 进行实时流处理

使用 Amazon EMR 上的 Spark 进行大规模机器学习

借助 Phoenix 和 HBase 实现低延迟的 SQL 访问和二级索引

结合使用 HBase 和 Hive for NoSQL 来处理分析工作负载

借助 Presto 和 Airpal 启动 Amazon EMR 集群

结合使用 HBase 和 Hive for NoSQL 来处理分析工作负载

使用 Amazon EMR 上的 Hive 和 MicroStrategy 套件处理和分析大数据

使用 AWS 上的 Apache Flink 构建实时流处理管道

培训和帮助

短期参与

AWS 大数据培训

其他培训

其他资源

大数据博客

机器学习博客

文档

常见问题

文章与教程

AWS 云成本中心

AWS 定价计算器

AWS Trusted Advisor

AWS Support 计划

后续步骤

入门教程

发现更多 Amazon EMR 资源

注册免费账户

准备好开始构建？

终止对 Internet Explorer 的支持