Amazon EMR 入门

如何使用 EMR

1

开发数据处理应用程序

您可以使用 Java、Hive(类似 SQL 的语言)、Pig(数据处理语言)、Cascading、Ruby、Perl、Python、R、PHP、C++ 或 Node.js。Amazon EMR 提供代码示例和教程,帮助您快速开始使用并正常运行。

2

将您的应用程序和数据上传到 Amazon S3

如果您要上传大量数据,可以考虑使用 AWS Import/Export Snowball(使用物理存储设备上传数据)或者 AWS Direct Connect(建立从数据中心到 AWS 的专用网络连接)。如果您愿意,还可以直接向正在运行的集群写入数据。

3

配置和启动您的集群

使用 AWS 管理控制台AWS CLI开发工具包API,指定要在集群中预置的 Amazon EC2 实例数、要使用的实例类型(标准、高内存、高 CPU、高 I/O 等)、要安装的应用程序(Apache Spark、Apache Hive、Apache HBase、Presto 等)以及应用程序和数据的位置。您可以使用引导操作安装其他软件或者更改默认设置。

4

监控集群

您可以使用管理控制台、命令行界面、开发工具包或 API 监控集群的运行状况和进度。EMR 与 Amazon CloudWatch 集成,可用于监控/警报,并支持流行的监控工具,如 Ganglia。您可以随时根据数据的处理情况给集群添加/移除容量。对于故障诊断,您可以使用控制台的简易调试 GUI

5

检索输出

检索集群上的 Amazon S3 或 HDFS 中的输出。使用工具(如 Amazon QuickSight、Tableau 和 MicroStrategy)直观显示数据。Amazon EMR 会在处理完成时自动终止集群。另一种方法是,让集群处于运行状态并给集群增加工作量。

您是否已做好准备来启动首个集群?

单击此处以通过 Amazon EMR 管理控制台启动集群。如果您要运行带有示例数据的示例应用程序,请在“Create Cluster”页面上转到“Advanced cluster configuration”,然后单击右上方灰色的“Configure Sample Application”按钮。

培训和帮助

您在构建概念证明或进行 EMR 应用程序优化时是否需要协助? AWS 拥有专精 EMR 的全球支持团队。如果您有兴趣了解更多短期(2 至 6 周)付费支持业务的信息,请联系我们

Big Data on AWS 课程旨在从实际操作方面指导您如何使用 Amazon Web Services 处理大数据工作负载。AWS 将向您展示如何使用范围广泛的 Hadoop 工具生态系统(如 Pig 和 Hive)运行 Amazon EMR 作业来处理数据。另外,AWS 还会教您如何使用 Amazon DynamoDB 和 Amazon Redshift 在云中创建大数据环境、使您了解 Amazon Kinesis 的优势,以及帮助您利用最佳实践来设计大数据环境,以实现分析、安全性和成本效益方面的目标。要了解有关大数据课程的更多信息,请单击此处

Scale Unlimited 公司提供定制的现场培训,适合于需要快速了解如何使用 EMR 和其他大数据技术的公司。若要了解更多信息,请单击此处