投稿日: Dec 3, 2019
Amazon Redshift クエリの結果を、分析用の効率的なオープンカラム型ストレージ形式である Apache Parquet として Amazon S3 データレイクにアンロードできるようになりました。Parquet 形式は、テキスト形式と比較して、アンロードが最大 2 倍速く、さらにストレージ使用量が Amazon S3 で最大 6 倍少なくすみます。これにより、Amazon Redshift で行ったデータ変換と強化を、オープン形式で Amazon S3 データレイクに保存できます。その後、Redshift Spectrum および Amazon Athena、Amazon EMR、Amazon SageMaker などの他の AWS のサービスを用いてデータを分析できます。
1 つ以上のパーティション列を指定して、アンロードされたデータが Amazon S3 バケット内のフォルダ内に自動的にパーティション分割されるようにできます。たとえば、マーケティングデータをアンロードして、年、月、および日の列で分割することができます。これにより、クエリでパーティションのプルーニングを利用し、無関係なパーティションのスキャンをスキップすることができます。これにより、クエリのパフォーマンスを向上させ、コストを最小限に抑えることができます。
詳細については、Amazon Redshift のドキュメントをご覧ください。
Amazon Redshift データレイクのエクスポートは、Redshift リリースバージョン 1.0.10480 以降でサポートされています。Amazon Redshift を利用できるリージョンについては、AWS リージョン表をご覧ください。