Amazon Web Services ブログ

【開催報告】Amazon Redshift 事例祭り(DWHマイグレーション)

先日(5月10日)、「Amazon Analytics (Redshift) 事例祭り」というイベントが開催されました。オンプレミスDWHを利用していた、もしくは現在使用しているお客様がDWHをAWSクラウド上のAmazon Redshiftに移行した経験談を共有していただくという内容のセミナーで、定員の120名を越えるお申込をいただき、会場が満室になる熱気の中で実践的な情報が共有されました。

この記事ではそのイベントの内容をご紹介します。また、各社発表資料へのリンクも掲載しています。


AWS session – データウェアハウスのAmazon Redshiftへの移行ガイド

アマゾンウェブサービスジャパン株式会社 ソリューションアーキテクト 下佐粉 昭から、データウェアハウス(DWH)をAmazon Redshiftに移行するメリットや検討事項などを説明しました。

DWHの歴史を紐解き、これまでオンプレミス環境で構築してきたDWHの課題とは何なのかを説明し、その課題がRedshiftでどのように解決されるのかを解説しました。

移行時の検討事項としては、POC(Proof of Concept:概念実証)の実施を強く推奨しており、POCを実施するうえで重要なことはゴールの設定とスケジュールと強調しました。ゴールもなく闇雲に始めていつ終わるのか分からないPOCは意味がないため、何を実証したのかというゴールを定め、どれぐらいの期間・どのような手順で実施するのかをあらかじめ定義することがPOCの成功につながる、と語りました。

また、すべてのデータベースをRedshiftに載せることにこだわる必要はなく、AWSでは様々なデータベース・サービスがあるので適材適所で選択できる、と説明しました。クラウドであれば最適なサービスを必要な分だけ必要な時に始められますので、1つの技術に固定されない事、柔軟に活用できる事がメリットである事を強調しました。

最後に、DWHをクラウド化することの本当の価値は、クラウドの俊敏性・柔軟性を最大限活用して新しいデータ分析ニーズに即応できること、と話し締めくくりました。(この内容は、AWS Summit Tokyo 2018のDay2 (5/31)の「クラウドへのデータウェアハウスマイグレーション手法」で再度講演されます。会場での参加申し込みは締め切られていますが、ライブストリーミングがこちらからご予約いただけます)

Customer case study #1 日経電子版のデータドリヴン文化における、Redshiftの位置付けと運用のヒント(日経新聞社)

日本経済新聞社 BtoC ユニットデータチーム佐野 玄 様から、日経電子版の運営で実践しているデータ分析についてご講演頂きました。(佐野様作成資料はこちら

所属されているチームはもともとアクセス解析ツールの社内標準化を担当されていたのですが、現在ではあらゆる分析対象データの収集から処理、統合、集計、予測、配信などを担当されており、データのAnalyst、Technologist、Scientistとしての役割を担っていると説明されました。

今回お話し頂いたシステムでは、主に顧客の行動分析とCRM関連データの分析をしており、Redshiftはログ解析基盤としてご利用頂いています。RedshiftだけではなくDynamoDBやElasticsearch、In-Memory DBなども役割に応じて使い分けています。

クラウド環境を選択した理由は、オンプレミスでのDWHはデータの反映に時間がかかることや、データ量に制約があること、特別なスキルが必要、柔軟性に乏しいこと、データが増えるとコストがかさむことなどの課題があるため、これらを回避すべくクラウド上で構築されたとのこと。特にRedshiftには、高い信頼性、標準的なSQLで様々なクエリを処理できること、完全なマネージドサービスによる運用負荷の軽減、などを評価して導入したと説明されました。

このような多種DB環境において、Redshiftはミッションクリティカルな集計を担当しており社内に広く開放されているそうです。その中で、ワークロード管理機能(WLM)を活用したバッチ処理とアドホック・クエリの両立や、Short Query Acceleration機能(SQA)を有効化するなど、Redshiftが持つ機能をフル活用して最適なDWH環境を構築されています。

また、コンピューティング・リソースよりもストレージ・リソースの方が低コストと判断し、一部のデータはCPU処理の多いジョインが発生しないようにレコードを「横に広く」持たせるなどの工夫もされていると話されました。コストの観点ではSpectrumも活用しており、古いデータをファイルとしてS3に格納することでコストを抑制しているとも説明されました。

最後に今後のさらなる機能拡張への期待を語り、セッションを締めくくりました。

Customer case study #2 老舗メディアの分析基盤を移行し、運用する話(VOYAGE GROUP)

株式会社 VOYAGE GROUP 前原 武 様から、EOSLを迎えたオンプレミスのDWHからRedshiftへ移行するに際し、なぜRedshiftを選択したのか、またどのようにRedshiftに移行したのかについてご講演頂きました。(前原様作成資料はこちら

VOYAGE GROUP様では、DWHとして2008年からオンプレミスのアプライアンス型DWHをご利用でしたが、2017年にEOSLを迎えるにあたりRedshiftへと移行しました。選定において、Redshiftが既存DWHとアーキテクチャが非常に似ていること、フルマネージのサービスであることを高くご評価頂きました。

サイジングにおいてはPOCを実施しました。クラウドでは大雑把なサイジングで利用を開始するケースもありますが、スケールアップに要する時間を考えると事前にスペックを把握したかった、とのこと。また、既存環境での負荷が高かったこともあり本当にRedshiftはパフォーマンスがいいのか把握したい、などのご要望もありました。

POCでは、既存環境で実行しているSQLをRedshiftで流してパフォーマンスを計測しました。その結果、定型処理では8ノード構成のRedshiftで既存と同等のパフォーマンスを確保できることが分かりました。さらに、ノードを増やせば線形にパフォーマンスが向上することも把握でき、今後の展開への安心材料になったとお話し頂きました。また、アドホック・クエリでは実際の利用者から3倍近く高速との評価を頂きました。

選定後の移行においては、テーブル定義の変換やSQLの変換、データ移行が必要です。テーブル定義はほぼ機械的に移行できたとのこと。一部データ型の扱いが異なる点や分散キーの変更・修正、ソートキーの追加などは手作業で対応されました。

SQLは、半分程度はそのまま動いたそうです。動かないSQLについてもパターンが分類できたため、手作業で地道に変換できたと説明されました。データ移行では、S3にアップロードしてCOPYすることで完了したとのこと。データの修正は必要なく移行できたとお話し頂きました。

最後にRedshiftに移行して良かった点を説明されました。

まず、管理コストが圧倒的に低い点をご評価頂きました。ハードウェアの障害時にはAWSが対応し自動復旧します。障害の通知を受けたためコンソールを開いてみたらすでに復旧済みだった、ということもあったそうです。また、ディスク拡張が数クリックのみでできる点はオンプレミスのDWHとの大きな違いと話されました。さらに、自動的・継続的なソフトウェアのアップデートやシステムの安定性について、これまでと比べて大きなメリットがあるとのことでした。

最後に、オンプレミスのDWHと同程度のパフォーマンスであれば1/3~1/2程度のコストで実現でき、お金があればいくらでも高速化できる感覚、とお話し頂き締めくくりました。

AWS session – Amazon Redshift への移行を支えるAPNパートナー、SDP(サービスデリバリープログラム)に関して

アマゾンウェブサービスジャパン株式会社 パートナーソリューションアーキテクト 相澤 恵奏から、Redshiftへの移行を支援するAPNパートナー様を紹介しました。

現在AWS Partner Networkには、SIパートナーとして222社、ISVパートナーとして299社が登録されており、様々な要件に応じてバラエティ豊かなご支援を提供できます。また、Redshiftを扱うService Delivery Partner(SDP)としては、セミナー時点でNRI様、クラスメソッド様、CTC様、クラウドパック様、NEC様、システムサポート様、サーバーワークス様、ウルシステムズ様、ナレッジコミュニケーション様の9社が登録されており、POCから計画立案、設計、実装、テスト、運用など、様々な観点でのご支援を提供しております。

Customer/Partner case study #3 – CTCと実現したDWHのAmazon Redshiftへの移行(ビデオリサーチ)

株式会社ビデオリサーチ 辻 水月 様から、オンプレミスの分析環境からRedshiftに移行するにあたり、期待していたことと運用後の現実についてご講演頂きました。後半では移行を担当した伊藤忠テクノソリューション(CTC) 森永 道様よりCTCの移行サービスについてご説明がありました 。(辻様、森永様作成資料はこちら

ビデオリサーチ様は、2017年12月にオンプレミスDWHからRedshiftに移行しました。移行前の課題として、事業拡張時のリソース追加対応や他システムとの連携、既存分析ツール(IBM SPSS)への対応などが挙げられましたが、Redshiftではすべての課題をクリアしました。

リソースは事実上無制限で、必要な時に必要なだけ増やせます。その際、コンソール画面で数クリックのみの容易な作業で実施できます。また、他システムとも問題なく連携でき、SPSSからの利用も問題無いと判断されました。

当初Redshiftに期待していたこととして、一番大きいことは拡張性であり、次がメンテナンス容易性、パフォーマンスはその次で、コスト効果への期待は最後、とのことでした。拡張性については、文字通り必要な時に必要なだけ増やせ、期待通りの効果を発揮できたと話されました。また、現在ではCloudWatchによるリソース監視も実施されているそうです。メンテナンス容易性についても期待通りで、ルータ機器やスイッチについての知識や経験が少なくてもシステムを実装できたとのこと。パフォーマンスについては想像以上に悪くないと話されました。SQLによっては従来よりも遅いものがあるものの、大半はほぼ同じパフォーマンスを発揮しているそうです。遅いな、と感じたときにちょっとしたチューニングで速くなる点は良い、とも。

コスト効果については、圧倒的安さと話されました。以前の環境と比べて50%以上の費用削減が実現したとのことです。運用方法としては、夜間や休日は分析担当が利用しないためインスタンスを停止することでコストを削減されています。

移行前にはPOCを実施されました。初めてのクラウドということもあり、CTC様と共同で性能検証やSQL互換性検証を実施されました。性能検証によりノード数を判断できたこと、SQL検証では大半のSQLがそのまま動くことを確認できたとのことでした。また、移行についてはほとんど問題が発生しなかったそうです。あえて言うなら…ということで、列数の多いテーブル(1,500列)はクラスタを分けた点、20TBのデータ移行は夜な夜な実施したことなどを苦労話として挙げられました。

今後の展望として、Redshiftを様々なシステムと連携してデータ価値を上げていきたいと語られました。CTC 森永様からも「CTCはAWSデータベース関連サービスをリリースする」と説明があり、AWSパートナー(APN)としてAWSの技術支援を強化される事が発表されました。最後に辻様はオンプレミスのようにリソースや運用の縛りがないため無限大の可能性がある、アイディア一つで可能性はいくらでもある、と語り締めくくりました。

Customer/Partner case study #4 – Redshift で加速したデジタルマーケティング分析(日本たばこ)

日本たばこ産業株式会社 たばこ事業本部 マーケティング&セールスグループ マーケティング戦略部 主任 平谷 朋也 様、およびクラスメソッド株式会社 甲木 洋介 様から、分析の高度化に耐えうるDWHとしてRedshiftを採用するにあたり、どのように構築したかを講演頂きました。(平谷様、甲木様作成資料はこちら

日本たばこ産業 平谷様からは事業部門の観点から従来の分析業務の課題についてお話し頂きました。

たばこ規制が年々強化される中、購買者に対してよりきめ細かくアプローチするマーケティングやキャンペーンが必要となっており、必然的にデジタルシフトが加速してきています。その結果、データ量は爆発的に増加しており、1日4,000万件、総量で100億件のデータを扱う必要がありました。また、これらのデータが複数のシステムに分散して格納されていました。そのため、手作業での分析は限界に達しつつありました。データを集めてExcelで集計し分析できたときにはキャンペーンが終わっている、ということもありました。利用しているBIツールも扱えるデータが限定的かつ定型的で改修が困難となっていました。

利用者が増えるにつれてレスポンスが悪化し、データ量・ユーザー数の増加に対応できる構成への変更を迫られていたため、様々な調査の末Redshiftで解決できるだろうとの目途はついたのですが、AWSをこれまで使ったことがない、クラウド環境の管理作業は本業ではない、既存環境やBIサービス(Tableau)の双方をまとめて構築・連携したい、超短納期で実現したい、など様々な課題や要望があり、これらすべてを相談できるパートナーを探しクラスメソッド様を選定されました。

クラスメソッド 甲木様からはRedshiftを活用した新分析基盤の導入背景、および導入後の効果についてお話し頂きました。

クラスメソッド様はTableauおよびRedshiftの構築経験が大変豊富なため、本件についてもクラスメソッド様が提供するデータ分析基盤テンプレート「カスタマーストーリーアナリティクス」の利用で超短納期にレスポンス課題を解決できると判断されました。カスタマーストーリーアナリティクスはデータ分析に必要な基盤環境とBIツールをワンパッケージで提供するサービスで、TableauとRedshiftを迅速に導入できます。

導入から利用開始までの1か月程度、テンプレートのカスタマイズは必要なかったとのことです。データ連携は既存の仕組みを活用しつつS3にデータを転送する方式を採りました。導入効果としては、従来10秒程度だったレスポンスタイムが1秒、長くても3秒程度と改善しました。ユーザー数も従来の10名程度から150~200名と順調に増えており、全国の支社でのセルフBIも始まりつつあるそうです。

まとめでは平谷様が再びマイクを握り、今後の展望としてセルフBIを本格的に推進することと、マーケティング以外の用途でのRedshift活用を模索したいと話されていました。また、クラスメソッド様のようなクラウド専門家に相談することで、運用を気にすることなくシステム課題を解決できる、と話し締めくくりました。

Customer case study #5 – オンプレミスデータウェアハウスから AWS Redshift への移行検証について(ヤフージャパン)

ヤフージャパン株式会社 データ&サイエンスソリューション統括本部データプラットフォーム本部 エンジニア 福留 拓也 様から、現行オンプレミスDWHから一部データを切り出した性能検証の結果についてご講演頂きました。(福留様作成資料はこちら

ヤフー様では、100万クエリ/日、アクティブユーザー数2,100名/日、1.7PBのディスクサイズという巨大DWHを運用されており、日々負荷が増え続けているという状況です。将来的には負荷分散も考慮する必要があり、オフロード先としてRedshiftを検討しており、将来的なシステム構成にRedshiftを組み込むことができるか検証して頂きました。

今回の検証では、実際の分析システムで流れているアドホックな集計クエリを利用して処理時間を比較しました。クエリとしては、JOIN無しなど比較的単純なSQLで構成されるショートクエリやサイズの大きい表をJOINするヘビークエリをミックスで流しています。利用したデータはユーザーの行動履歴を記録したテーブルが複数、それに関連したユーザーやカテゴリの属性テーブルという構成です。

検証結果として、デフォルトキューを利用した場合、クライアントの並列数が少ない(1および5)うちは現行システムと比較して劣らないレスポンスタイムでしたが、クライアントの並列数が5を超えるとレスポンスタイムが劣化し、並列度20では相当劣化した、という結果が出ていたとのことでした。キューの追加等を実施しましたが改善には至らず、特にショートクエリでの速度低下が顕著になりました。改めてクエリ実行状況の調査をしたところ、ショートクエリの時間は実行されるまでの「待ち時間」が大半をしめており、ヘビークエリに待たされることにより速度低下が起こっていることが判明しました。そこでショートクエリを優先して実行するようSQA(Short Query Acceleration)と、Query Hoppingの設定を実施しました。本PoCではQuery Hoppingがショートクエリの実行時間を劇的に改善し、結果としてショートクエリ、ヘビークエリともに現行環境と同等の性能が得られました。

また、Spectrumの検証も実施しており、ヘビークエリについては問題ないレスポンスを得ることができました。このことから、大量の過去データの集計などには効果を発揮するのでは、と説明されました。

最後に、Redshiftにチューニングも施すことで現行のDWHシステムと同等のパフォーマンスを発揮できる目途がついたためオフロード対象の検討を始める、と話されました。また、Spectrumも効果的なため一部のクエリについてはコスト削減が期待できる、と話して締めくくりました。


アマゾンウェブサービスジャパン 諏佐 嘉之

著者はデータベース、データウェアハウス専門の営業として、日々お客様のデータベース環境のクラウド化を御支援する活動をしています。またAWS内にはデータベースを専門とするエンジニアがお客様の技術支援を行っています。データベース、DWHをクラウド上で構築したい、移行したいというお考えのお客様はぜひお気軽に、こちらまでご連絡ください。