亚马逊AWS官方博客
Amazon Aurora MySQL 与 Amazon Redshift 的零 ETL 集成现已正式发布
“数据是每个应用程序、流程和业务决策的核心”,这是 AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 写过的一句话。我完全认同这一说法。如今,客户使用的一种常见模式是构建数据管道,将数据从Amazon Aurora 转移到 Amazon Redshift。这些解决方案可以帮助他们获得洞察力,从而增加销售额、降低成本和优化业务。
为了让您能够专注于从数据中创造价值,而不需要准备数据以进行分析,我们在 AWS re:Invent 2022 上以及 2023 年 6 月发布的 Amazon Aurora MySQL 兼容版公开预览版中宣布推出 Amazon Aurora 与 Amazon Redshift 的零 ETL 集成。
现已正式发布:Amazon Aurora MySQL 与 Amazon Redshift 的零 ETL 集成
今天,我们宣布 Amazon Aurora MySQL 与 Amazon Redshift 的零 ETL 集成正式发布。通过这项完全托管的解决方案,无需再建立和维护复杂的数据管道,即可从交易数据中获得具有时效性的见解,为关键业务决策提供依据。
Amazon Aurora 和 Amazon Redshift 之间的这种零 ETL 集成为您解锁了在 Amazon Redshift 中对 PB 级交易数据进行近乎实时的分析和机器学习(ML)的机会。该功能使这些数据在写入 Aurora 后几秒钟即在 Amazon Redshift 中可用。
它还使您能够从 Amazon Redshift 中的多个 Aurora MySQL 数据库集群运行整合分析,从而全面了解许多应用程序或分区。 Amazon Aurora MySQL 与 Amazon Redshift 的零 ETL 集成每分钟可处理来自多个 Aurora 数据库的 100 多万笔交易(相当于每分钟 1750 万次插入/更新/删除行操作),并且不到 15 秒即在 Amazon Redshift 中可用(p50 延迟)。
此外,您还可以利用 Amazon Redshift 的分析和内置 ML 功能,例如实体化视图、跨区域数据共享以及对多个数据存储和数据湖的联合访问。
我们开始吧
在本文中,我将重点介绍一些步骤以及有关如何轻松入门的信息。我将使用我现有的 Amazon Aurora MySQL 无服务器数据库和 Amazon Redshift 数据仓库。
首先,我需要导航到 Amazon RDS,然后在零 ETL 集成页面上选择创建零 ETL 集成。
在创建零 ETL 集成页面上,我需要执行几个步骤来配置 Amazon Aurora 数据库集群与 Amazon Redshift 数据仓库的集成。
首先,我为集成定义一个标识符,然后选择下一步。
在下一页上,我需要通过选择浏览 RDS 数据库来选择源数据库。
在这里,我可以选择我现有的数据库作为源。
下一步将询问我目标 Amazon Redshift 数据仓库。在这里,我可以灵活选择我的账户或其他账户中的 Amazon Redshift Serverless 或 RA3 数据仓库。我选择浏览 Redshift 数据仓库。
然后,我选择目标数据仓库。
由于 Amazon Aurora 需要复制到数据仓库中,因此我们需要另外添加一个资源策略,并在 Amazon Redshift 数据仓库中将 Aurora 数据库作为授权集成源添加。
我可以通过在 Amazon Redshift 控制台中进行手动更新来解决这个问题,也可以让 Amazon RDS 为我修复这个问题。我勾选相应的复选框。
在下一页上,将显示 Amazon RDS 将为我们执行的更改。我选择继续。
在下一页上,我可以配置标签和加密。默认情况下,零 ETL 集成使用 AWS Key Management Service(AWS KMS)加密您的数据,我也可以选择使用自己的密钥。
然后,我需要查看所有配置,然后选择创建零 ETL 集成来创建集成。
几分钟后,我的零 ETL 集成创建成功。然后,我切换到 Amazon Redshift,在零 ETL 集成页面上,可以看到我最近创建的零 ETL 集成。
由于该集成在 Amazon Redshift 中还没有目标数据库,因此我需要创建一个目标数据库。
现在,集成配置已完成。在此页面上,我可以看到集成处于活动状态,并且有一张表已被复制。
为了进行测试,我在 Amazon Aurora 数据库中创建了一个新表,并在该表中插入了一条记录。
然后,我切换到 Amazon Redshift 中的 Redshift 查询编辑器 v2。在这里,我可以连接到在集成过程中形成的数据库。通过运行一个简单的查询,我可以看到我的数据在 Amazon Redshift 中已经可用。
我发现这种零 ETL 集成之所以非常方便,有两个原因。首先,我可以将来自多个数据库集群的所有数据整合在一起,然后对其进行汇总分析。其次,这种零 ETL 集成使交易数据在写入 Amazon Aurora MySQL 后几秒钟就在 Amazon Redshift 中可用,过程十分顺畅。
注意事项
可用性 — Amazon Aurora 与 Amazon Redshift 的零 ETL 集成现已在以下区域推出:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)和欧洲地区(斯德哥尔摩)。
支持的数据库引擎 — Amazon Aurora 与 Amazon Redshift 的零 ETL 集成目前支持 Amazon Aurora 的 MySQL 兼容版。对 Amazon Aurora PostgreSQL 兼容版的支持仍然有效。
定价 — Amazon Aurora 与 Amazon Redshift 的零 ETL 集成无需支付额外费用。您需要为现有 Amazon Aurora 和 Amazon Redshift 资源(这些资源用于创建和处理在零 ETL 集成过程中创建的变更数据)付费。
在帮助您更多地专注于从数据中创造价值而不是准备数据以供分析的旅程中,我们又向前迈进了一步。要了解有关如何入门的更多信息,请访问 Amazon Aurora MySQL 与 Amazon Redshift 的零 ETL 集成页面。
祝您集成愉快!
— Donnie