亚马逊AWS官方博客
Amazon Redshift 的新功能—— 简化数据摄取,让您的数据仓库更加安全可靠
与客户交谈时,我们听说他们希望能够利用数据中的见解,做出及时、有影响力和可操作的业务决策。数据驱动型组织的一个常见模式是,他们需要在分析系统中引入许多不同的数据来源。这要求他们建立跨运营数据库、数据湖、流数据和仓库内数据的手动数据管道。由于这种设置十分复杂,数据工程师可能需要数周甚至数月的时间来建立数据摄取管道。这些数据管道成本高昂,延迟可能导致错失商机。此外,数据仓库正日益成为高可用性、可靠性和安全性的关键任务系统。
Amazon Redshift 是一个完全托管的 PB 级数据仓库,成千上万的用户可以在其帮助下轻松、快速、安全地分析任何规模的所有数据,性价比高。今年,在 re: Invent 上,Amazon Redshift 宣布推出了多项功能,可帮助您在安全、可靠的环境中简化数据摄取并轻松快速地获得见解。
在这篇博客中,我会介绍一些新功能,主要分为两大类:
- 简化数据摄取
- Amazon Redshift 现在支持从 Amazon S3 自动复制(提供预览版)。借助这项新功能,Amazon Redshift 会将到达您指定的 Amazon Simple Storage Service (Amazon S3) 位置的文件自动加载到您的数据仓库中。这些文件可以使用 Amazon Redshift 复制命令支持的任何格式,例如 CSV、JSON、Parquet 和 Avro。这样,您就无需手动或重复运行复制过程。Amazon Redshift 可自动提取文件并负责幕后数据的加载步骤。
- 借助与 Amazon Redshift 集成的Amazon Aurora Zero-ETL,您可以使用 Amazon Redshift 对存储在 Amazon Aurora MySQL 数据库中的千兆字节交易数据进行近乎实时的分析和机器学习(预览时可用)。借助此功能,您可以选择包含要使用 Amazon Redshift 分析的数据 Amazon Aurora 数据库。然后,在将交易数据写入 Amazon Aurora 后,无需构建和维护复杂的数据管道,数据将在几秒钟内复制到您的数据仓库中。您可以将来自多个 Amazon Aurora 数据库的数据复制到同一个 Amazon Redshift 实例中,在多个应用程序中运行分析。通过近乎实时地访问交易数据,您可以利用 Amazon Redshift 的分析和功能,例如内置机器学习 (ML)、实体化视图、数据共享以及对多个数据存储和数据湖的联合访问,从交易和其他数据中获得见解。
- Amazon Redshift Streaming Ingestion 全面上市后,您可以每秒从 Amazon Kinesis Data Streams 和 Amazon MSK 提取数百兆字节的数据到 Amazon Redshift 实体化视图,然后在几秒钟内对其进行查询。这篇文章介绍了更多的内容。
- 让您的数据仓库更安全、更可靠
- 现在,您可以通过选择多个可用区(AZ) 部署来提高数据仓库的可用性。Amazon Redshift 集群的多可用区部署提供预览版,可通过自动恢复将恢复时间缩短到几秒钟。通过这种方式,您可以构建更符合 AWS Well-Architected Framework的可靠性支柱建议的解决方案。
- 使用动态数据屏蔽(预览版中可用),您可以保护存储在数据仓库中的敏感信息,并确保用户只能根据角色访问相关数据。您可以使用多个级别的策略限制用户可见的可识别数据数量,这样不同的用户和组就可以拥有不同级别的数据访问权限,而不必创建多个数据副本。动态数据屏蔽补充了 Amazon Redshift 中的其他精细访问控制功能,包括行级和列级安全以及基于角色的访问控制。通过这种方式,动态数据屏蔽可以帮助您满足 GDPR、 CCPA 和其他隐私法规的要求。
- Amazon Redshift 现在支持与 AWS Lake Formation 共享数据的集中访问控制(公共预览版中可用)。现在,您可以使用 Lake Formation 简化对 Amazon Redshift 共享数据的管理,并集中管理所有数据共享消费者的精细访问权限。
您可能已经听说过 re: Invent 上的 Amazon Redshift 还有其他有趣的消息:
- 适用于 Apache Spark 的 Amazon Redshift 集成已正式上市,这样可以轻松在 Amazon Redshift 和 Redshift Serverless 上构建和运行 Spark 应用程序,从而为更广泛的 AWS 分析和机器学习解决方案开辟了数据仓库。
- AWS Backup 现在支持 Amazon Redshift。AWS Backup 可用于定义集中备份策略从而管理应用程序的数据保护,现在还可以保护您的 Amazon Redshift 集群。这样,您就可以在管理所有支持服务的数据保护时获得一致的体验。
可用性和定价
在美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、亚太地区(东京)、欧洲地区(爱尔兰)和欧洲地区(斯德哥尔摩),提供多可用区部署、与 AWS Lake Formation 共享数据的集中访问控制、来自 Amazon S3 的自动复制和动态数据屏蔽。
使用来自 Amazon S3 的自动复制和近乎实时的交易数据分析不会产生额外费用。动态数据屏蔽和数据共享的中央访问控制不收取额外费用。有关更多信息,请参阅 Amazon Redshift 定价。
通过这些功能,您能够采用简单的数据摄取功能进一步分析跨数据来源的所有数据,同时提高数据仓库的安全性和可靠性。
– Danilo