Amazon Web Services ブログ
Amazon Redshift – 2017 まとめ
Amazon Redshift に新しい特徴や機能を追加することに忙しかったので、この 1 年間で何をしてきたのかをまとめたいと考えています。この記事では、いくつかの機能拡張をまとめ、Amazon Redshift の実装を学び、最大限に活用するためのリソースを提供します。
2017 年には、Amazon Redshift に関して 30 件以上の発表を行いました。お客様の声に耳を傾けて、Amazon Redshift の機能である Redshift Spectrum を提供しました。これにより、データを移動することなく、データレイクに分析機能を拡張することができます。新しい DC2 ノードを開始し、同じ価格で性能を倍増させました。また、スケーラビリティの拡張、パフォーマンスの向上、自動化の強化、およびアナリティックワークロードの管理を容易にする方法など多くの新機能も発表しました。
ローンチの完全なリストを見るには、最新情報ページをご覧ください。RSS フィードの登録もお忘れなく。
2017 年の主なローンチ
Amazon Redshift Spectrum—データを移動することなく、データレイクに分析機能を拡張する
Amazon Redshift Spectrum を開始し、Amazon S3 でデータをオープンファイル形式で保存し、Amazon Redshift クラスターにロードすることなく分析で使用できるようにしました。これにより、Redshift クラスターと S3 にまたがるデータセットに簡単にアクセスすることができ、独立したデータサイロを照会することでは得られない独自の洞察を提供できます。
Redshift Spectrum を使用すると、Amazon Redshift に保存されているデータを分析するのと同じように簡単に Amazon S3 データレイクのデータに対して SQL クエリを実行できます。データをロードしたり、データ量の増加に基づいて Amazon Redshift クラスターのサイズを変更したりすることなく、この操作を実行できます。Redshift Spectrum は、コンピューティングとストレージを分離して、データサイズ、同時実行性、パフォーマンスに対するワークロードの要求を満たします。Redshift Spectrum は数千のノードにわたって処理をスケールするので、大量のデータセットや複雑なクエリを使用しても結果は高速です。データを移動することなく、Amazon S3 で直接、Apache Avro、CSV、Grok、ORC、Apache Parquet、RCFile、RegexSerDe、SequenceFile、TextFile、TSV などの既に使用しているオープンファイル形式を照会できます。
「複雑なクエリの場合、Redshift Spectrum は 67% のパフォーマンス向上をもたらしました」と、 NUVIAD の CEO である Rafi Ton 氏は言いました。「Parquet データ形式を使用すると、Redshift Spectrum は 80% のパフォーマンス向上をもたらしました。私たちにとって、これは価値あるものでした。」
Redshift Spectrum の詳細については、AWS Summit でのセッション「Intro to Amazon Redshift Spectrum: Now Query Exabytes of Data in S3」をご覧いただき、発表のブログ記事 「Amazon Redshift Spectrum – Exabyte-Scale In-Place Queries of S3 Data」をお読みください。
DC2 ノード—同じ価格で DC1 の 2 倍のパフォーマンス
第 2 世代の Dense Compute (DC2) ノードを開始し、要求が厳しいデータウェアハウジングのワークロードに対して低レイテンシーと高スループットを実現しました。DC2 ノードは、強力な Intel E5-2686 v4 (Broadwell) CPU、高速 DDR4 メモリ、NVMe ベースのソリッドステートディスク (SSD) を備えています。Amazon Redshift を調整して、DC2 ノードのより優れた CPU、ネットワーク、ディスクを利用し、同じ価格で DC1 のパフォーマンスを最大 2 倍に向上させました。現在、DC2.8xlarge インスタンスは、データスライスあたり 2 倍のメモリを提供し、ストレージ使用率を 30% 向上させた最適化されたストレージレイアウトを提供します。
「Redshift により、迅速にクラスターをスピンアップし、データにアクセスして洞察を生成するための迅速で簡単な方法をデータサイエンティストに提供することができます」と、Liberty Mutual のテクノロジーアーキテクトである Bradley Todd 氏は言いました。「Redshift DC2 ノードでは、DC1 と比較して月末の報告時間が 9 倍短縮しました。」
DC2 ノードで顧客が経験しているパフォーマンスの向上については、顧客の声をお読みください。詳細については、ブログ記事「Amazon Redshift Dense Compute (DC2) Nodes Deliver Twice the Performance as DC1 at the Same Price」をお読みください。
パフォーマンスの向上— 3 倍〜 5 倍高速なクエリ
平均で、当社の顧客は重要なワークロードの大半で、3 倍から 5 倍のパフォーマンス向上を確認しています。
ショートクエリーアクセラレーションを導入して、レポート、ダッシュボード、インタラクティブな分析などのクエリの実行を高速化しました。ショートクエリアクセラレーションでは、機械学習を使用してクエリの実行時間を予測し、実行時間が短いクエリを高速のショートクエリキューに移動させて処理を高速化します。
結果キャッシュを開始して、ダッシュボード、可視化、BI ツールからのクエリなど、繰り返されるクエリの応答時間が 1 秒未満になるようにしました。結果キャッシュには、リソースを解放して他のすべてのクエリのパフォーマンスを向上させるという利点もあります。
また、遅延マテリアライゼーションも導入して、次の列のデータブロックをフェッチする前に、述語フィルタリングでバッチ処理とファクタリングを行うことで、述語フィルターを使用して照会するデータの量を減らしました。たとえば、テーブル行の 10% だけが述語フィルターを満たしている場合、Amazon Redshift は残りの列に対する I/O の 90% を節約し、クエリのパフォーマンス向上を実現できる可能性があります。
クエリモニタリングルールと事前定義されたルールテンプレートを開始しました。これらの機能により、ワークロード管理 (WLM) 照会のメトリクスベースのパフォーマンス境界を設定し、クエリがその境界を超えた場合に実行するアクションを指定することがより簡単になります。たとえば、実行時間が短いクエリ専用のキューの場合、60 秒を超えて実行されるクエリを中止するルールを作成することがあります。設計が不適切であるクエリを追跡するには、ネストされたループを含むクエリを記録する別のルールが必要かもしれません。
顧客の洞察
Amazon Redshift と Redshift Spectrum は、スタートアップから大企業に至るまで、さまざまな業界や規模の顧客にサービスを提供しています。最新の機能拡張により当社の顧客が収めている成功を確認するには、顧客のページをご覧ください。Liberty Mutual Insurance などの企業が、DC2 ノードを使用して月末の報告時間を 9 倍短縮したことをご確認ください。このページでは、当社の顧客が Amazon Redshift を使用してイノベーションとビジネスの成果をどのように推進しているかを示すケーススタディ、ビデオ、その他のコンテンツをご覧いただけます。
さらに、Amazon Redshift を使用してデータウェアハウスおよびデータレイク統合ソリューションを構築している顧客の成功事例については、以下のリソースを参照してください。
- Sysco: Developing an Insights Platform – Sysco’s Journey from Disparate Systems to a Data Lake and Beyond (re:Invent セッションの録画)
- 21st Century Fox: Migrating Your Traditional Data Warehouse to a Modern Data Lake (re:Invent セッションの録画)
- Cerberus Technologies: How I built a data warehouse using Amazon Redshift and AWS services in record time (ブログ記事)
- NUVIAD: Using Amazon Redshift Spectrum, Amazon Athena, and AWS Glue with Node.js in Production (ブログ記事)
- Periscope Data: Making Every Redshift Query Valuable with Periscope Data (This is My Architecture エピソード)
- Lyft 導入事例
- Boingo Wireless 導入事例
パートナーソリューション
業界をリードする専門家と協力して Amazon Redshift データウェアハウスを強化することができます。AWS パートナーネットワーク (APN) パートナーは、Amazon Redshift と連携するソリューションを認定しています。こうしたパートナーはソフトウェア、ツール、統合、コンサルティングサービスを提供し、あらゆるステップで顧客をサポートします。Amazon Redshift パートナーページにアクセスして、APN パートナーを選択してください。または、AWS Marketplace を使用すると、サードパーティのソフトウェアを見つけてすぐに使い始めることができます。
前述の Amazon Redshift Spectrum と DC2 ノードについてパートナーが語っていることを確認するには、以下のブログ記事をお読みください。
- Looker: 「Using Amazon Redshift’s new Spectrum Feature」
- Matillion: 「Accessing your Data Lake Assets from Amazon Redshift Spectrum」
- Periscope Data: 「Amazon Redshift’s Hardware Upgrade Improves Query Speed by up to 5x」
- Reflect:「 The Implications of Redshift Spectrum」
- SnapLogic: 「Integrate through the big data insights gap」
- Tableau: 「Tableau 10.4 Supports Amazon Redshift Spectrum with External Amazon S3 Tables」
リソース
ブログ記事
すべての Amazon Redshift 記事のリストについては、AWS ビッグデータブログをご覧ください。
- 「Amazon Redshift Spectrum Extends Data Warehousing Out to Exabytes—No Loading Required」
- 「10 Best Practices for Amazon Redshift Spectrum」
- 「Top 8 Best Practices for High-Performance ETL Processing Using Amazon Redshift」
- 「Analyze Database Audit Logs for Security and Compliance Using Amazon Redshift Spectrum」
- 「From Data Lake to Data Warehouse: Enhancing Customer 360 with Amazon Redshift Spectrum」
YouTube 動画
- re:Invent セッション録画: Best Practices for Data Warehousing with Amazon Redshift
- AWS オンラインテックトーク: Analyze your Data Lake, Fast @ Any Scale
- AWS オンラインテックトーク: Amazon Redshift Spectrum: Quickly Query Exabytes of Data in S3
GitHub
専門家のコミュニティが、デプロイメントを最大限に活用するためのヒントやヒントを GitHub に提供しています。GitHub に頻繁にアクセスして、最新のテクニカルガイダンス、コードサンプル、管理タスク自動化ユーティリティ、analyze & vacuum スキーマユーティリティなどを入手してください。
顧客サポート
Amazon Redshift で概念実証を評価または検討している場合や、オンプレミスまたは他のクラウドベースのデータウェアハウスを Amazon Redshift に移行する際の支援が必要な場合は、当社の製品エキスパートとソリューションアーキテクトのチームが、設計、サイジング、 データウェアハウスの最適化などをお手伝いいたします。このサポートリクエストフォームを使用して当社に連絡し、支援を希望される方法をお知らせください。
Amazon Redshift のお客様には、無償の正常性診断プログラムをご用意しています。当社のデータベースエンジニアとソリューションアーキテクトのチームが、特定のワークロードに対して Amazon Redshift と Amazon Redshift Spectrum を最適化するための推奨事項を提供いたします。詳細は、redshift-feedback@amazon.com まで E メールでご連絡ください。
質問があれば、redshift-feedback@amazon.com まで E メールでお問い合わせください。
その他の参考資料
この記事が参考になった場合は、「Amazon Redshift Spectrum – Exabyte-Scale In-Place Queries of S3 Data」、「Using Amazon Redshift for Fast Analytical Reports」、「How to Migrate Your Oracle Data Warehouse to Amazon Redshift Using AWS SCT and AWS DMS」もぜひご覧ください。
著者について
Larry Heathcote は、アマゾン ウェブ サービスのプリンシパルプロダクトマーケティングマネージャーであり、データ ウェアハウジングと分析を担当しています。 データに基づいてビジネスの業績を洞察し、その結果を理解することに情熱を傾けています。家族との時間、家事、バーベキューとその昔ながらの味わいを楽しんでいます。