Amazon Web Services ブログ

Amazon EMR 4.7.0 – Apache TezとPhoenix, 既存アプリのアップデート

Amazon EMRを使えば素早くコスト効率よく大量のデータを処理することができます。2009年のローンチ以来、数多くの新機能と増え続けるHadoopエコシステムのアプリケーション達のサポートを追加してきました。以下は今年に入ってから追加したもののうちのいくつかになります。

本日またさらに一歩進めて、Apache Tez (データフロー駆動なデータ処理タスクの協調)とApache Phoenix (OLTPや業務分析のための高速なSQL)を新たにサポートし、合わせて既存のいくつかのアプリを更新しました。これらの新規や更新されたアプリケーションを使うためには、Amazon EMRのリリース4.7.0でクラスタを起動する必要があります。

新規 – Apache Tez (0.8.3)

TezはApache Hadoop YARN上で動きます。Tezはデータフローを定義するためのAPIを提供し、それによってデータ処理タスクのDAG (有向非巡回グラフ)を定義することができます。TezはHadoop MapReduceより高速になり得て、HiveとPigの両方と一緒に使うことができます。より詳しくは、EMRリリースガイドをご覧下さい。Tez UIにはDAGの可視化も含まれています:

UIは各DAGの詳細な情報も表示できます。

新規 – Apache Phoenix (4.7.0)

PhoenixはデータストアとしてHBase (Hadoopエコシステムのメンバーの1人)を使います。PhoenixにはJDBCドライバを使って、同じクラスタや他のクラスタ上で実行されているアプリケーションから接続可能です。いずれの方法でも、高速で低レイテンシで完全なACIDトランザクション機能をもったSQLでアクセスすることができます。SQLクエリはHBaseスキャンの手順にコンパイルされ、並列でスキャンし、各々の結果を集約することで結果セットを生成します。より詳しくはPhoenix Quick Start GuideApache Phoenix Overviewのプレゼンテーションをご覧下さい。

アプリケーションの更新

また、以下のアプリケーションを更新しています:

  • HBase 1.2.1 – HBaseは低レイテンシで大量のデータにランダムアクセスできます。新しいバージョンはいくつかのバグ修正を含みます。
  • Mahout 0.12.0 – Mahoutはスケール可能な機械学習やデータマイニングを提供します。新しいバージョンには大量の数学や統計の機能が含まれています。
  • Presto 0.147 – Prestoは大量のデータセットのために設計された分散SQLクエリエンジンです。新しいバージョンは機能追加とバグ修正が含まれます。

Amazon Redshift JDBCドライバ

RedshiftのJDBCドライバを使うことで、EMRクラスタ上のアプリケーションからRedshiftクラスタにアクセスしデータを更新することができます。2つのバージョンのドライバがクラスタにインストールされています。

  • JDBC 4.0 互換 – /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar.
  • JDBC 4.1 互換 – /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar.

新しいアプリケーションを使い始めるには、単純にあたらしいEMRクラスタを起動し、その際にリリース4.7.0を選択し必要とするアプリケーションを選択するだけです。

Jeff;

原文: https://thinkwithwp.com/blogs/aws/amazon-emr-4-7-0-apache-tez-phoenix-updates-to-existing-apps/ (翻訳: SA岩永)