張貼日期: Nov 15, 2019
Amazon EMR 5.28.0 版本現支援 Apache Hudi (孵化)。使用 Amazon EMR 用於資料管道開發和資料處理的資料工程師,現可用 Apache Hudi 來簡化增量資料管理和需要記錄層級插入、更新和刪除操作的資料隱私權使用案例。Apache Hudi 可以讓以 Amazon S3 為基礎的資料湖符合資料隱私權法規、運用即時串流和變更資料擷取日誌、恢復遲到資料、追蹤變更歷史記錄和轉返。Apache Hudi 為開放原始碼且支援中立開發商的 Amazon S3 資料儲存,開放原始碼包括 Apache Parquet 和 Apache Avro。
Apache Hudi 是一個開放原始碼資料管理框架,可用於簡化增量資料處理和資料管道開發。Apache Hudi 可讓您在 Amazon S3 中以記錄層級管理資料簡化變更資料擷取 (CDC) 和串流資料擷取,並提供框架以處理需要記錄層級更新和刪除的資料隱私權使用案例。由 Apache Hudi 管理的資料集儲存在使用開放式儲存格式的 S3 中,與 Presto、Apache Hive、Apache Spark 和 AWS Glue Data Catalog 整合後,可讓您近乎即時存取地使用熟悉工具更新資料。
Apache Hudi 在 Amazon EMR 中為原生支援,當您部署 EMR 叢集並選擇 Apache Spark、Hive 或 Presto 時,將自動安裝。使用 Apache Hudi,您可以建立資料集,針對高讀取量或高寫入量的使用案例進行最佳化,Apache Hudi 會管理儲存在 S3 的基礎資料,此 S3 使用用於資料儲存的 Apache Parquet 和 Apache Avro。
Amazon EMR 5.28.0 版本搭配 Apache Hudi 現已可在美國東部 (維吉尼亞北部和俄亥俄)、美國西部 (奧勒岡)、南美洲 (聖保羅)、歐洲 (愛爾蘭和斯德哥爾摩)、AWS GovCloud (美國東部和西部)、由 SINNET 營運的 AWS (北京區域),未來幾週將新增更多區域。
您可以訂閱 Amazon EMR 版本備註摘要,以取得 EMR 版本的最新資訊。請使用 EMR 版本指南頂端的圖示,將摘要 URL 直接連結到您喜愛的摘要閱讀器。
若要更進一步檢視搭配 EMR 使用 Apach Hudi,請參與 re:Ivent 會議和工作坊。
其他連結:
AWS 新聞部落格:新-使用 Amazon EMR 和 Apache Hudi 在 S3 上插入、更新、刪除資料