Amazon EMR 入门
如何使用 EMR
1
开发数据处理应用程序
您可以使用 Java、Hive(类似 SQL 的语言)、Pig(数据处理语言)、Cascading、Ruby、Perl、Python、R、PHP、C++ 或 Node.js。Amazon EMR 提供代码示例和教程,帮助您快速开始使用并正常运行。
2
将您的应用程序和数据上传到 Amazon S3
如果您要上传大量数据,可以考虑使用 AWS Import/Export Snowball(使用物理存储设备上传数据)或者 AWS Direct Connect(建立从数据中心到 AWS 的专用网络连接)。如果您愿意,还可以直接向正在运行的集群写入数据。
3
4
监控集群
您可以使用管理控制台、命令行界面、开发工具包或 API 监控集群的运行状况和进度。EMR 与 Amazon CloudWatch 集成,可用于监控/警报,并支持流行的监控工具,如 Ganglia。您可以随时根据数据的处理情况给集群添加/移除容量。对于故障诊断,您可以使用控制台的简易调试 GUI。
5
检索输出
检索集群上的 Amazon S3 或 HDFS 中的输出。使用工具(如 Amazon QuickSight、Tableau 和 MicroStrategy)直观显示数据。Amazon EMR 会在处理完成时自动终止集群。另一种方法是,让集群处于运行状态并给集群增加工作量。
您是否已做好准备来启动首个集群?
单击此处以通过 Amazon EMR 管理控制台启动集群。如果您要运行带有示例数据的示例应用程序,请在“Create Cluster”页面上转到“Advanced cluster configuration”,然后单击右上方灰色的“Configure Sample Application”按钮。