Amazon Web Services ブログ
Re:Invent 2018 での AWS ビッグデータと分析セッション
re:Invent 2018 が間もなく開催です! 今年は、データと分析の追跡が盛り上がっています。
このブログ記事では、re:Invent 2018 のデータと分析セッションを特集しています。本年のイベントに参加されるなら、会議で行われるセッション、ワークショップ、チョークトーク、ビルダーセッションを確認してください。これまでと同じく、分析、深層学習、AI Summit、サーバーレス、アーキテクチャ、データベースなど、さまざまなトピックカテゴリーのイベントが行われます。
Intuit、Nike、Intel、WuXi NextCODE、Warner Brothers、AutoDesk、NFL、SendGrid、McDonald、AirBnB、Hilton、Guardian Life、Amazon Go、Pfizer など、多くの企業の素晴らしいセッションが行われます。
これらのセッションは録画され、会議後に YouTube から視聴可能です。また、これらのセッションのすべてのスライドデッキは、会議後に SlideShare.net で入手できます。
ブレークアウトセッションの詳細については、この記事のリンクを選択してください。
注意: 機械学習に興味があれば AI Summit と Machine Learning、AI ワークショップとセッションを確認してください。次のブレークアウト分析セッションは、今年のセッションカタログを構成します。
AWS Analytics と DB Services のバイスプレジデント Anurag Gupta と、Amazon Machine Learning (Amazon ML) のバイスプレジデント Swami Sivasubramanian による 2 つのセッションがあります。
この講演では、AWS Analytic と Transactional Database Services のバイスプレジデント Anurag Gupta がデータレイクや分析分野の重要な動向について語り、AWS で提供するサービスをどのように形作るかを説明します。具体的な傾向には、新しいデータの支配的なソースとしての機械生成データおよび半構造化/非構造化データの増加、サーバーレス SPI 中心のコンピューティングへの移行、世界中のユーザーからのデータへのローカルアクセスの必要性の高まりなどがあります。
AIM202-L – リーダーシップセッション: 機械学習
Amazon は個別化、推奨エンジン、フルフィルメントセンターのロボティクスまで、AI 分野で長い歴史を持っています。Amazon Go、Amazon Alexa、Amazon Prime Air もその例です。このセッションでは、AWS の最新の機械学習サービスについて学び、革新的な AI で AWS と提携している顧客の意見を聞きます。
Deep dive 顧客のユースケース
ANT203 – Amazon Elasticsearch Service で Nike を検索
Amazon Elasticsearch Service (Amazon ES) は強力な自然言語ベースの検索機能と豊富な API を提供し、e コマース、データレイク、アプリケーションデータなどのアプリケーションの関連検索を可能にします。Nike はこれらのミッションクリティカルなワークロードのために Amazon ES で標準化された Nike オンラインストアを含む Web プロパティの検索エンジンをアップグレードしました。Amazon ES では、ハードウェアの展開とスケーリング、Elasticsearch の展開、クラスターの設定とセキュリティの確保、セキュリティパッチのアップグレード、Elasticsearch を維持するために必要な低価格の運用タスクなどの問題を心配することなく、顧客が製品を探して購入することに集中できるようにするための、重要なミッションに集中できます。このセッションでは、Nike が Amazon ES を選択する際に使用した要因について説明します。アーキテクチャの概要を理解し、移行の結果を聞きましょう。
ANT324 – Amazon Athena: 新機能および SendGrid の革新
Amazon Athena は、標準 SQL を使用して Amazon S3 のデータを簡単に分析できるインタラクティブなクエリサービスです。Athena はサーバーレスであるため、インフラストラクチャの管理は不要であり、実行したクエリにのみ課金されます。このセッションでは、チームが構築を進めているエキサイティングな新機能をライブでデモンストレーションしています。 信頼されるメール配信大手 SendGrid は、Athena を使った同社のプラットフォームの人気のある機能を作り直した方法について説明します。
ANT310 – Amazon Kinesis を使ったリアルタイムの洞察のためのアーキテクチャの設計
Amazon Kinesis を利用して、ストリーミングデータから貴重なリアルタイムの洞察を得るのにかかる時間を簡単に短縮できます。このセッションでは、ストリーミングの抽出・変換・ロード、連続メトリック生成、応答分析など、Amazon Kinesis を使用して顧客が実装する最も一般的なアプリケーションについて説明します。当社の顧客である Autodesk も参加して、Amazon Kinesis と Amazon Elasticsearch Service を使用してリアルタイムメトリック生成と分析をどのように作成したかを説明してくれます。彼らはリアルタイム分析ソリューションの構築と展開で学んだアーキテクチャとベストプラクティスを説明します。
ANT301 – データウェアハウスを超えた分析の拡張、Warner Bros の分析を紹介。
企業はデータウェアハウスにデータをロードする際の複雑さ、スケーラビリティ、パフォーマンスの問題のために、分析されない貴重なデータを持っています。適切なツールを使用して、ロードを必要とせず、データレイク内のデータをクエリするために分析を拡張できます。Amazon Redshift Spectrum は Amazon Redshift の分析能力をデータウェアハウスに格納されたデータ超えて拡張し、Amazon S3 データレイクの膨大な非構造化データに対して直接 SQL クエリを実行します。これにより、必要な場所に自由にデータを保存し、必要なときに分析に利用できるようになります。Amazon Redshift リードエンジニアとのディスカッションに参加して、質問をしたり、データウェアハウスを超えて分析を拡張する方法について学んでください。
ANT383 – Teradata から Amazon Redshift への移行: McDonald のベストプラクティス
お使いのデータウェアハウスを新しくすることで、クエリとデータのロードパフォーマンスを大幅に改善し、スケーラビリティを向上させ、コストを削減しながら、新しい洞察を得ることができます。このチョークトークでは、AWS Database Migration Service と AWS Schema Conversion Tool を活用して Teradata から Amazon Redshift に移行する方法について説明します。McDonald が参加し、彼らの移行する方法について説明します。移行後は 4 つの AWS リージョンで約 7000 件のレポートを実行できるようになり、マーケティング、フランチャイズ、サプライチェーン、価格設定、さらに多くのビジネスユニット向けの新しいレポート機能を実現しました。
ANT312 – Hadoop/Spark ワークロードを Amazon EMR に移行し、AWS のセキュリティとガバナンスのために構築する
顧客は費用を節約し、可用性とパフォーマンスを高めるために、Apache Hadoop/Spark で実行されている分析、データ処理 (ETL)、データサイエンスワークロードを AWS に移行しています。このセッションでは、AWS の顧客である Airbnb と Guardian Life が、ワークロードを Amazon EMR に移行する方法について説明します。このセッションでは、クラウドに移行するための主な動機について説明します。アーキテクチャの主要な変更点と、Hadoop/Spark ワークロードをクラウドに移行する利点について詳しく説明します。
ANT406 – Oracle から Amazon Redshift へのワークロードの移行: Pfizer のベストプラクティス
お使いのデータウェアハウスを新しくすることで、クエリとデータのロードパフォーマンスを大幅に改善し、スケーラビリティを向上させ、コストを削減しながら、新しい洞察を得ることができます。このチョークトークでは、Oracle データウェアハウスを Amazon Redshift に移行し、敏捷性と迅速な分析時間を達成しながらコストを削減する方法について説明します。Pfizer が参加し、Redshift が提供するデータレイクである科学データクラウドを構築する際の手順について紹介してくれます。これは研究開発における前例のない分析機能を提供するだけでなく、研究開発連続製造にほぼリアルタイムでアクセスすることも重視しています。
ANT311 – NFL と Forwood Safety Deploy がビジネス分析を Amazon QuickSight で大規模に展開
数千名のユーザーのインタラクティブなデータと分析を有効にするには、使用量の予測、サーバーのプロビジョニングと管理、データの保護、アクセスの管理、監査機能の保証など、多くのコストがかかり、かつ難しいことがあります。このセッションでは、Amazon QuickSight のサーバーレスアーキテクチャとセッション単位の料金表により、National Football League (NFL) と Forwood Safety がインタラクティブなダッシュボードを数百から数千ユーザーに展開した方法を紹介します。NFL が組み込み Amazon QuickSight ダッシュボードを使用してクラブ、放送局、社内ユーザーに試合から収集した次世代統計データを提供する方法を説明します。また、Forwood が Amazon QuickSight リーダー、統合シングルサインオン、動的デフォルト、電子メールレポートなどを活用してどのように世界中の数千名の Rio Tinto ユーザー用にダッシュボードを有効化したかも紹介します。
ANT389 – Amazon Redshift の顧客への質問
世界中のホテル予約や予約管理システムなどのビジネスアプリケーションのための洞察と分析を推進するために、AWS にエンタープライズデータレイク/運用管理 (EDM) プラットフォームを構築した Hilton Hotels Worldwide のベストプラクティスを紹介します。EDM アーキテクチャは、Amazon EC2 で動作する Hadoop クラスターと Amazon Redshift および Amazon Athena を組み合わせて構築され、データウェアハウスとアドホック SQL 分析に使用されます。これは究極のデータに到達する途上で、フィルタリングされていない顧客の視点を得る絶好の機会です!
ANT208 – Amazon Kinesis Video Streams を使用したサーバーレスビデオの取り込みと分析
Amazon Kinesis Video Streams を使用すると、ライブビデオのキャプチャー、再生、リアルタイム保存、バッチ指向の ML 主導分析が簡単になります。このセッションでは、Amazon Kinesis Video Streams を開始し、スケーリングするための上位 5 つのベストプラクティスを最初に紹介します。次に、ノート PC に接続された標準 USB カメラからストリーミングビデオをデモンストレーションし、数分以内に標準のブラウザーでライブ再生を行います。また「just walk out (好きな商品を持ち出すだけ)」技術で実現された次世代の実店舗の経験を構築している Amazon Go メンバーもステージに登場します。彼らは Kinesis Video Streams との統合についての技術的な詳細について説明し、成功と難しさを語ります。
ANT206 – 内部を覗く: Amazon が分析のために大規模に AWS のサービスを使用する方法
Amazon の消費者ビジネスが成長を続けている中で、データの量や、ビジネスをサポートするために行われる分析の数や複雑さも増大しています。このセッションでは、Amazon.com が AWS テクノロジーを使用してデータと分析のためのスケーラブルな環境を構築する方法について説明します。Amazon EMR や Amazon Redshift など、データレイク、並列、スケーラブルコンピューティングエンジンを組み合わせて、Amazon がデータウェアハウジングの世界をどのように進化させているかを見ていきます。
ANT210-S – WuXi NextCODE は AWS でゲノムシーケンスをスケールアップ
ゲノムシーケンスは 1 年間で 1 億シーケンスの割合で増加し、2025 年には 40 エクサバイトになります。このレベルの成長に対応し、大きなデータ分析を実行することは、スケーラビリティ、柔軟性、スピードの大きな課題です。このセッションでは、パブリッククラウド上でオンプレミスからオールインに移行することについて、複雑でパフォーマンスの重いデータベースとゲノムシーケンシングワークロードを処理する先進のゲノムシーケンシング企業 WuXi NextCODE から学びます。WuXi NextCODE が、ワークロードが要求するパフォーマンスを達成し、ゲノムシーケンシングでこれまで達成された限界をどのように超えているかを紹介します。 本セッションは AWS のパートナーである NetApp, Inc. が提供します。
SRV316-R1 – サーバーレスストリーム処理パイプラインのベストプラクティス
従来、リアルタイム分析は DWH/Hadoop 環境でのバッチ処理を使用して行われてきました。一般的なユースケースでは、データレイク、データサイエンス、機械学習 (ML) を使用します。Amazon Kinesis、AWS Lambda、Amazon Athena などのサービスを使用してサーバーレスのデータ駆動型アーキテクチャとサーバーレスのストリーミングソリューションを作成することで、リアルタイムの取り込み、ストレージ、分析の課題を解決し、インフラストラクチャを管理することなくアプリケーションロジックに集中できます。このセッションでは、デザインパターンとベストプラクティスを紹介し、最新のサーバーレスデータ駆動型アーキテクチャアプリケーションを構築する際の、バッチからリアルタイムの洞察に至るまでの顧客の手順を紹介します。Intel がサーバーレスアーキテクチャを使用して、どのように Intel Pharma Analytics Platform を構築したかを聞いてみましょう。この AI クラウドベースの製品は、センサー、ウェアラブルデバイス、ML アルゴリズムを使用して患者を遠隔監視することで、さまざまな治療条件における介入や臨床試験の影響を客観的に定量化できます。
ビルダーセッション
このセクションでは、データレイクアーキテクチャとベストプラクティスに関する AWS 分析サービスセッションについて説明します。
ANT364 – Amazon Kinesis を用いたストリーミングデータのベストプラクティス
Amazon Kinesis はリアルタイムのストリーミングデータを簡単に収集、処理、分析できるため、タイムリーな洞察を得て、新しい情報に迅速に対応することができます。このビルダーセッションでは、Amazon Kinesis Data Stream の一般的な使用例と、リアルタイムでデータを処理する際に顧客が実装する上位 5 つのベストプラクティスを紹介します。
ANT348 – [BS] Amazon EMR: データ処理および ETL のための一時的クラスターの最適化
Amazon EMR は俊敏性のために構築されており、オンデマンドで大規模なデータ処理と分析のためのリソースをスピンアップして、クラウドの柔軟なポテンシャルを実現します。このビルダーセッションでは、Apache Spark と Hadoop のクラスターを効率的に開始、停止、サイズ変更し、コストを削減し、ジョブ「完了までの時間」を短縮する方法について詳しく説明します。「1 つの作業済み」ワークロードを最適化する方法について、一緒に専門家の助言を聞いてみましょう。
ANT333 – [BS] AWS Glue を使用した高度なワークフロー構築
AWS Glue を使用すると、さまざまなソースのデータを Amazon S3 のデータレイクに簡単に組み込むことができます。このビルダーセッションでは、AWS Glue オーケストレーション機能を使用して複雑なワークフローを構築する方法を示します。さまざまな種類の AWS Glue トリガーについて学習し、スケジュール済みのワークフローとイベントドリブン処理用のワークフローを作成します。顧客のシナリオから始め、AWS Glue 機能を使用して段階的に構築します。
ANT346 – [BS] ロックダウン: Amazon EMR でエンドツーエンドのセキュリティとアクセス制御を設定する
Amazon EMR は分析用のすべてのデータを処理することに役立ちますが、大きなスケールには大きな責任を負うため、データが設計によって確実に保護されていることを確認する必要があります。このビルダーセッションでは、機密データの識別、データの暗号化とキーの管理、ユーザーの認証と許可、詳細なアクセス制御の使用、監査ログを使用してコンプライアンスを実証するなど、包括的なセキュリティ制御を最大限に活用するように環境を構成する方法を説明します。
ANT331 – [BS] AWS Glue ETL ジョブのメトリックス駆動パフォーマンスチューニング
AWS Glue はさまざまなデータソースに対して、ETL ジョブを実行するための、水平方向にスケーラブルなプラットフォームを提供します。このビルダーセッションでは、Glue ジョブメトリクスを使用してジョブのパフォーマンスを理解し、最適化するためのテクニックについて説明します。ドライバーとエグゼキューターのボトルネックを特定する方法、データスキューを特定し修正する方法、DPU の数を調整する方法、共通のメモリエラーに対処する方法について説明します。
ANT381 – AWS Glue を使用した高度なワークフロー構築
AWS Glue を使用すると、さまざまなソースのデータを Amazon S3 のデータレイクに簡単に組み込むことができます。このビルダーセッションでは、AWS Glue オーケストレーション機能を使用して複雑なワークフローを構築する方法を示します。さまざまな種類の AWS Glue トリガーについて学習し、スケジュール済みのワークフローとイベントドリブン処理用のワークフローを作成します。顧客のシナリオから始め、AWS Glue 機能を使用して段階的に構築します。
ANT344 – [BS] 1 つのデータレイク、多くの用途: Amazon EMR を使用してマルチテナント分析を有効にする
データレイクを持つ利点の 1 つは、マルチテナントグループが同じデータを使用できることです。これは永続的な Amazon EMR クラスターを効率的に共有する方法です。同じビジネスデータをさまざまな分析やデータ処理ニーズに安全に使用できます。このビルダーセッションでは、分析用のマルチテナント、マルチテナントクラスターのベストプラクティス、共通の課題の解決のために Amazon EMR クラスターを使用する手順を説明します。また、マルチテナント Amazon EMR クラスターのセキュリティとガバナンスについても説明します。
ANT363 – Amazon Kinesis を使用したストリーミングアプリケーションの構築
Amazon Kinesis Data Analytics を使用して、ストリーミングデータをリアルタイムで処理するアプリケーションを迅速に構築し、簡単に管理できます。このビルダーセッションでは、最も一般的な問題やベストプラクティスなど、ストリーミングアプリケーションを構築するために必要な手順について説明します。
ANT368 – Amazon Kinesis を使用してデータレイクに新しいデータを提供する
Amazon Kinesis Data Firehose はストリーミングデータをデータストアや分析ツールに確実にロードする最も簡単な方法です。このビルダーセッションでは、Kinesis Data Firehose を使用して、データを簡単に処理できる形式で Amazon S3 に取り込み、変換、配信する方法について説明します。
ANT382 – Amazon QuickSight で、豊かでインタラクティブなビジネスダッシュボードを構築する
静的メールレポート、Excel スプレッドシート、ワンタイムクエリを廃止する準備はできましたか? このビルダーセッションでは、あなたのビジネス関係者が自分でフィルタリング、細分化、深く研究することを可能にするために、Amazon QuickSight で豊かでインタラクティブなビジネスダッシュボードを構築する方法を学びます。オンシートのフィルター制御、パラメーター、カスタム URL、テーブルの計算などを作成し、豊かで魅力的なエグゼクティブダッシュボードを作成するなど、高度な Amazon QuickSight 機能をデモンストレーションしています。
ANT343 – データレイク分析のために、AWS Glue データカタログとクローラーを最大限に活用する
このビルダーセッションでは、AWS Glue データカタログに統合されたさまざまな AWS データ分析プラットフォームでの一般的な使用事例について説明し、Amazon Athena、Amazon Redshift Spectrum、Amazon EMR などのサービスで AWS Glue データカタログおよびクローラーを使用するためのベストプラクティスを共有します。参加者はサンプルデータシートでクローラーを設定および起動し、さまざまな分析サービスでクエリを実行します。
ANT390 – Amazon Kinesis Video Streams を使用したストリーミングビデオの開始方法
このビルダーセッションでは、Amazon Kinesis Video Streams を使用してビデオストリームをキャプチャー、処理、分析する方法について説明します。高度なエンドツーエンドアーキテクチャと、リアルタイムでストリーミングビデオを開始するための最初の手順について説明します。
ANT366 – Amazon Kinesis と Amazon SageMaker を使用したリアルタイムの機械学習
Amazon SageMaker は、開発者やデータサイエンティストがあらゆる規模の機械学習 (ML) モデルを迅速かつ簡単に構築、トレーニング、デプロイできるようにする完全マネージド型プラットフォームです。Amazon Kinesis はリアルタイムのストリーミングデータを簡単に収集、処理、分析できるため、タイムリーな洞察を得て、新しい情報に迅速に対応することができます。 このビルダーセッションでは、2 つのサービスを組み合わせて、あらゆる規模でリアルタイム機械学習を実行するかを説明します。
ANT378 – Amazon QuickSight を使用したサーバーレス分析
ビッグデータのクエリと分析は、複雑で高価なことがあります。これにはデータベースの設定と管理、データウェアハウス、ビジネスインテリジェンス (BI) アプリケーションが必要であり、これらには時間、エフォート、リソースが必要です。Amazon Athena と Amazon QuickSight を使用すれば、データベース、データウェアハウス、複雑な ETL ソリューション、BI アプリケーションに投資することなく、高速、スケーラブル、サーバーレスなクラウド分析ソリューションを作成することで、コストと複雑さを回避できます。このビルダーセッションでは、Amazon Athena と Amazon QuickSight を使用して、サーバーレスのビッグデータ分析ソリューションを構築する方法を紹介します。
ANT365 – AWS Lambda を使用したサーバーレスなストリーム処理
ストリーミングデータの取り込みとほぼリアルタイムでの分析により、データをすぐに把握できます。AWS Lambda と Amazon Kinesis を使用して、サーバーを管理することなく、これらの洞察を得ることができます。このビルダーセッションでは、Lambda と Kinesis を併用して、エンドツーエンドのサーバーレスソリューションを構築する方法について説明します。
ANT347 – Auto Scaling、スポット料金、より専門的な戦略の使用
Amazon EMR はパワフルなサービスで、ビッグデータをあらゆる規模で処理および分析することが可能です。このビルダーセッションでは、長時間実行中のクラスターコストを最小限に抑えながら、利用率を最大化するための実証された戦略を共有しています。Auto Scaling やスポット料金などの機能を最大限に活用する方法について説明します。また、コンピューティングとストレージのデカップリングによって TCO にどのような影響を与えるかについても説明します。特に、インスタンス、クラスター、ジョブのサイジングを適切に調整することで、保存に役立つ方法を示します。
ワークショップ
ANT307 – 組織の Redshift 採用を有効にする – ゼロからヒーローへ
なぜ一部の企業では Amazon Redshift 採用に関するビジネス目標を迅速に達成できるのでしょうか? あなたの組織に合わせた Amazon Redshift 展開のための正しいアーキテクチャを理解していますか? 実績のあるパターンと「クイックスタート」環境が成功の鍵です。会社の成功の関係者として、あなたはビジネスニーズに合ったテーブルに明確かつ簡潔なビジネスソリューションを提供したいと考えています。 このセッションでは、コードとしてインフラストラクチャを使用し、他の AWS 顧客に使用されるさまざまな Amazon Redshift 展開パターンを提示し、即戦力のある実行を紹介します。 さらに、プレゼンテーションはハンズオンラボと連携して、このセッションで提示されたパターンを強化します。
ANT303 – フロントエンドで監視
Amazon Elasticsearch Service (Amazon ES) は検索ソリューションとログ監視ソリューションの両方を提供します。このセッションでは、両方を扱います。フロントエンドの PHP ウェブサーバーを構築し、ムービーデータの検索経験とバックエンド監視を提供し、Apache ウェブログ、Syslog、アプリケーションログを Amazon ES に送信します。検索エクスペリエンスの関連性を調整し、ログデータの Kibana 可視化を構築します。さらに、セキュリティのベストプラクティスを使用して、すべてを VPC に展開します。
ANT371 – AWS DMS と AWS SCT を使用して、オンプレミスデータウェアハウスを Amazon Redshift に移行する
オンプレミスデータウェアハウスを使用している顧客は、特にデータの負荷やパフォーマンスに関して、管理が複雑で費用がかかるものになっています。Amazon Redshift は、既存のビジネスインテリジェンスツールを使用してデータレイクにクエリを拡張できる、高速、シンプル、費用対効果の高いデータウェアハウスサービスです。オンプレミスのデータウェアハウスを Amazon Redshift に移行することで、クエリとデータのロードパフォーマンスを大幅に改善し、スケーラビリティを向上させ、コストを削減できます。このワークショップでは、AWS Database Migration Service (AWS DMS) と AWS Schema Conversion Tool (AWS SCT) を使用して、既存の Oracle データウェアハウスを Amazon Redshift に移行します。前提条件: IAM 管理者権限を持ち、上記の AWS リソースに十分な制限がある AWS アカウント。AWS マネジメントコンソール、リレーショナルデータベース、Amazon Redshift についての適切な実践的知識。
ANT325 – 1 つのデータレイク、多くの用途: Amazon EMR を使用してマルチテナント分析を有効にする
データレイクを持つ利点の 1 つは、マルチテナントグループが同じデータを使用できることです。これは永続的な Amazon EMR クラスターを効率的に共有する方法です。同じビジネスデータをさまざまな分析やデータ処理ニーズに安全に使用できます。このセッションでは、分析用のマルチテナント、マルチテナントクラスターのベストプラクティス、共通の課題の解決のために Amazon EMR クラスターを使用する手順を説明します。また、マルチテナント Amazon EMR クラスターのセキュリティとガバナンスについても説明します。
ANT302 – Amazon Elasticsearch Service で DynamoDB データを検索
Amazon DynamoDB と Amazon ES は両方とも、データベース技術です。それらの強みは異なり、相補的です。DynamoDB は優れた、耐久性のあるストアであり、ほぼ無限のスケールを持つ、信頼性の高いレイテンシーで高スループットを実現します。Elasticsearch は豊富なクエリ API を提供し、数値データや文字列データの高スループットで低レイテンシーな検索、クエリに関連する結果を提供する組み込み機能をサポートしています。このラボでは、これらの技術を組み合わせた能力を探ります。DynamoDB テーブルをデプロイし、データをブートストラップし、次に Dynamo Streams を使用して、そのブートストラップされたデータを Amazon ES に複製します。Elasticsearch のクエリ言語を使用してデータを直接照会します。最後に、DynamoDB テーブルに更新を送信し、Elasticsearch 分析機能を使用してテーブル内の変更を監視します。
ANT313 – AWS Glue を使用したサーバーレスデータ準備
このワークショップでは、AWS Glue クローラーを使用して Amazon S3 データレイクのデータセットを自動的にカタログする方法を学びます。また、AWS Glue 開発エンドポイントに接続された Amazon SageMaker ノートブックで ETL スクリプトをインタラクティブに作成する方法も学びます。最後に、ETL スクリプトを 管理された AWS Glue ジョブに変換し、適切な AWS Glue スケジューリングとトリガー条件を追加することで、ETL スクリプトを本番環境に展開する方法を学びます。結果のデータセットは自動的に AWS Glue データカタログに登録され、Amazon Athena からこれらの新しいデータセットをクエリできます。Python の知識とビッグデータアプリケーションに詳しいことが望ましいですが、必須ではありません。参加者はご自分のノート PC をお持ちください。
ANT370 – Amazon QuickSight を使用したソーシャルメディアの分析
ソーシャルメディア分析の価値を実現することで、ビジネス目標を高めることができます。この種類の分析は、利用可能な情報量が近年増大し、その収集および分析速度が高まったことで成長しました。このワークショップでは、Amazon QuickSight 内のツイートの多言語ソーシャルメディアダッシュボードを提供するサーバーレスのデータ処理と機械学習 (ML) パイプラインを構築します。私たちは API 駆動 ML サービス、AWS Glue、Amazon Athena、Amazon QuickSight を活用しています。これらのビルディングブロックは、AWS 内でサーバーレスの製品を活用することで、少ないコードにまとめられます。
ANT357 – ビデオをストリーミング、リアルタイム分析、リアルタイム共有
ビデオは「ビッグデータ」です。 スマートフォン、スマートホームデバイス、トラフィックカメラなど、インターネットに接続されるイメージセンサーが増えてきています。ビデオデータの膨大なストリームが生成されますが、現時点でビジネスを推進するためのリアルタイムの洞察を得るためには使われていません。このワークショップでは、ビデオストリームをキャプチャー、処理、分析する方法を学びます。Amazon Kinesis Video Streams を使用して、カメラデバイスのメディアパイプラインを構築および設定し、AWS クラウドへのビデオストリーミングを開始します。次に、Amazon SageMaker で独自の機械学習 (ML) モデルを構築および展開し、ビデオストリーム内のオブジェクトやアクティビティに関する推論を生成します。最後に、ブラウザーベースのウェブプレーヤーを構築して、分析されたビデオストリームを含むライブモードとオンデマンドモードでビデオを表示します。このワークショップでは、Amazon Kinesis Video Streams、Amazon SageMaker、Amazon Rekognition Video、Amazon ECS を使用します。
ANT321 – Amazon Redshift の階層化されたデータセット
Amazon Redshift は高速なローカルストレージに格納されたデータおよび大容量で安価なストレージ (S3) に対する一般的なクエリインタフェースを提供します。 このワークショップでは、この階層化されたストレージモデルの基礎を説明し、大容量のデータを最大限に活用するために活用できる設計パターンの概要を説明します。 複数のデータセットを持つ独自の Redshift クラスターを構築して、ストレージシステム間のトレードオフを説明します。 終了するまでに、データをどのように配布し、DDL を設計してビジネスに最適なデータウェアハウスを提供するかを理解できるようになります。
ANT305 – Amazon Elasticsearch Service を使用してコンテナ化されたアプリケーションを視覚化および監視する
最新のアプリケーションサービスは、多くのマイクロサービスを連携して構成されています。しかし、どのように大規模なアプリケーションサービスにどのように相互接続されているか、それらがどれだけうまく連携し、あるいは連携して動作しているかどうかをどのように可視化できますか? マイクロサービス環境の可視性を向上させ、乱雑さを解消しますか? 答えはログと、強力で自動化されたログアナライザーです。このラボでは、Amazon Elasticsearch Service (Amazon ES) にコンテナ化されたアプリケーションを展開します。Fluentd と Beats の組み合わせを使用して、インスタンス、コンテナ、アプリケーションログを Amazon ES に送信します。次に、Kibana を使ってこれらのログを調査し、ダッシュボードを構築してアプリケーションサービスを可視化し、アプリケーションの主要なパラメーターを監視します。
ANT362 – ストリーミングデータを使用して、リアルタイムの洞察からビジネス情報を得る
近年、接続されたデバイスとリアルタイムのデータソースの数が爆発的に増加しています。このため、データは継続的に生産されており、その生産速度は加速しています。企業はこのデータの使用を数時間または数日間待つことができなくなりました。最も価値のある洞察を得るためには、すぐに新しい情報に反応できるように、このデータをすぐに使用する必要があります。このワークショップでは、ストリーミングデータソースを活用して、ほぼリアルタイムで分析および反応する方法を学習します。実際のストリーミングデータシナリオには複数の要件があり、Amazon Kinesis、AWS Lambda、Amazon SNS などのサービスを使用して要件を満たすソリューションを作成する必要があります。
re:Invent 2018 の会場でお会いできることを楽しみにしています!
著者について
Roy Ben-Alta は AWS Professional Service の Big Data & Analytics 実施のグローバル責任者です。彼は AWS 顧客と協力して、革新的なデータ駆動型製品を開発するために、データ分析と ML 技術に取り組んでいます。