RA3 实例最大限度地提高了需要大量计算容量的性能密集型工作负载的处理速度,而通过指定所需的实例数量,您可以灵活地为计算资源单独付费,无需考虑存储容量。
列式存储、数据压缩和区域映射降低了执行查询所需的 I/O 数量。除了 LZO 和 Zstandard 等行业标准编码之外,Amazon Redshift 还针对数字和日期及时间类型提供了专门构建的压缩编码 AZ64,能够节省存储空间并优化查询性能。
可以在并发量升高时增加瞬态容量,从而支持近乎无限的并发用户和并发查询,并且服务等级保持不变。可在对成本影响最低的情况下进行扩展,因为每个集群每天最多可获得一小时的免费并发扩展积分。这些免费积分足以满足 97% 的客户的并发需求。
可以在并发量升高时增加瞬态容量,从而支持近乎无限的并发用户和并发查询,并且服务等级保持不变。可在对成本影响最低的情况下进行扩展,因为每个集群每天最多可获得一小时的免费并发扩展积分。这些免费积分足以满足 97% 的客户的并发需求。
通过 Amazon Redshift 实体化视图,您可以显著提升迭代或可预测性分析工作负载(如控制面板生成、来自商业智能(BI)工具的查询以及提取、转换、加载(ETL)数据处理作业)的查询性能。您还可以使用实体化视图存储和管理可能引用一个或多个表(包括数据湖、零 ETL 和数据共享表)的 SELECT 语句的预计算结果。通过增量刷新,Amazon Redshift 可识别上次刷新后发生的一个或多个基表的更改,并仅更新实体化视图中的相应记录。增量刷新比完全刷新运行得更快,可提高工作负载性能。
为重复查询提供亚秒级响应速度。执行重复查询的控制面板、可视化和 BI 工具的性能得到大幅提升。在执行查询时,Amazon Redshift 会对缓存进行搜索,看看是否有之前运行的查询的缓存结果。如果找到缓存结果且数据没有变化,Amazon Redshift 会立即返回缓存结果,而不会重新运行查询。
功能强大的全新表格排序机制,可根据传入查询筛选条件(例如特定区域的销售额)自动对数据进行排序,从而提高重复查询的性能。与传统方法相比,此方法显著提高了表格扫描的性能。
通过加快恢复速度和保证自动恢复时无数据丢失,以提升恢复能力。Amazon Redshift 多可用区数据仓库能够提供高可用性,且无需使用备用资源,从而最大限度地提高性能和价值,将可用性提高至 99.99% SLA。
Amazon Redshift 让您能够配置防火墙规则,以便控制对数据仓库集群的网络访问。您可以在 Amazon Virtual Private Cloud(Amazon VPC)中运行 Amazon Redshift,将您的数据仓库集群隔离在您自己的虚拟网络中,并用行业标准加密的 IPsec VPN 将其连接至您现有的 IT 基础设施。
仅需进行几项参数设置,您即可设置 Amazon Redshift,使其利用 TLS 来保护传输中数据,并利用硬件加速型 AES-256 加密来保护静态数据。如果您选择启用静态数据加密,那么所有写入硬盘的数据以及任何备份数据也将被加密。Amazon Redshift 默认负责密钥管理。
与 IAM Identity Center 集成让组织能够支持 Amazon Redshift、Amazon QuickSight 和 AWS Lake Formation 之间的可信身份传播。您可以通过 QuickSight 和 Amazon Redshift 查询编辑器以及第三方 BI 工具和 SQL 编辑器中的第三方身份提供者(IdP)(例如 Microsoft Entra ID、Okta、Ping 或 OneLogin),使用组织身份以单点登录体验访问 Amazon Redshift。管理员可以使用第三方 IdP 用户和组来管理跨服务的细粒度数据访问,并审核 AWS CloudTrail 中的用户级别访问。通过可信身份传播,可以在 QuickSight、Amazon Redshift 和 Lake Formation 之间无缝传递用户的身份,从而缩短获得洞察的时间并实现无障碍的分析体验。
精细的行级和列级安全控制功能可以确保用户只能看到他们需要访问的数据。Amazon Redshift 与 Lake Formation 集成,可以确保 Lake Formation 中的列级访问控制也应用于针对数据湖中的数据执行的 Amazon Redshift 查询。Amazon Redshift 数据共享功能支持通过 Lake Formation 进行集中访问控制,以简化对 Amazon Redshift 共享数据的治理。Lake Formation 服务可以轻松设置数据湖,以集中管理所有使用中服务数据的精细访问,并应用行级和列级控制。使用动态数据掩蔽,通过限制用户可见的可识别数据量来保护敏感数据。针对这些字段定义多个权限级别,以便不同的用户和群组可以通过熟悉的 Amazon Redshift SQL 界面获得不同级别的数据访问权限,而无需创建多个数据副本。
通过 Amazon Redshift 与 SageMaker Lakehouse 的集成,使用 SQL 分析所有统一数据。以开放格式查询 Amazon Simple Storage Service(Amazon S3)数据,消除数据湖和数据仓库之间的数据移动。在 SageMaker Lakehouse 中打开您的 Amazon Redshift 数据,即可访问 AWS 和 Apache Iceberg 分析工具,支持全面的数据分析和机器学习(ML)。
Amazon Redshift 支持在 Apache Iceberg、Apache Hudi 和 Delta Lake 表格式上使用熟悉的 ANSI SQL 进行只读查询,并支持直接在 Amazon S3 中查询开放文件格式,包括 Apache Parquet、ORC、Avro、JSON 和 CSV。Apache Iceberg 是开源表格式的一个示例,它通过表结构提供事务一致性,并增强了数据湖的组织能力。借助 Amazon Redshift Spectrum,您可以读取数据湖中的表格和开放数据格式(如 Parquet)中的数据,同时在 Amazon S3 中保留高达 EB 级的结构化、半结构化和非结构化数据。您还可以使用 Amazon Redshift UNLOAD 命令(包括导出到 Parquet 的选项)将数据导出到数据湖。将数据从 Amazon Redshift 导回到数据湖后,您可以使用 Amazon Athena、Amazon EMR 和 SageMaker 等 AWS 服务来进一步分析该数据。
用 SQL 使数据分析师、数据工程师和其他使用基于 Web 的分析师工作平台的 SQL 用户更易于访问您的 Amazon Redshift 数据和数据湖,以此进行数据探查和分析。Query Editor 允许您通过一个步骤可视化查询结果、创建模式和表格、可视化加载数据,以及浏览数据库对象。该功能还提供直观型编辑器,用于编写及共享 SQL 查询、分析、可视化和注释,并与您的团队安全地分享。
在 SageMaker Unified Studio(数据和人工智能开发环境)中使用由 Amazon Redshift 提供支持的内置 SQL 编辑器,查询存储在数据湖、数据仓库、数据库和应用程序中的数据。
Aurora、Amazon Relational Database Service(Amazon RDS)、Amazon DynamoDB、企业应用程序和 Amazon Redshift 之间的无代码集成可实现对跨数据库和应用程序的 PB 级数据的即时分析和机器学习。例如,对于写入操作、事务或企业应用程序来源的数据,Aurora 与 Amazon Redshift 的零 ETL 集成可在 Amazon Redshift 中无缝提供数据,大幅减少构建和维护复杂 ETL 数据管道的需要。
简化和自动化从 Amazon S3 进行数据摄取的过程,以节省构建自定义解决方案或管理第三方服务的时间和精力。借助这项功能,Amazon Redshift 可自动摄取文件并在后台处理连续数据的加载步骤,而无需手动执行,并重复运行复制过程。自动复制功能可令没有任何数据工程知识的业务线用户和数据分析师创建摄取规则,并配置他们要从 Amazon S3 加载的数据的位置。
使用 SQL 连接和直接摄取来自 Amazon Kinesis Data Streams 和 Amazon Managed Streaming for Apache Kafka(Amazon MSK)的数据。Amazon Redshift 流式摄取让您能够直接在数据流之上创建实体化视图,从而更轻松地创建和管理下游管道。实体化视图还可以包含 SQL 转换,作为 ELT 管道的分段。您可以手动刷新定义的实体化视图来查询最新流数据。
跨一个或多个 Amazon RDS 实例(包括 Amazon Aurora PostgreSQL 兼容版、Amazon Relational Database(Amazon RDS)for MySQL 和 Amazon Aurora MySQL 兼容版数据库)查询实时数据,可以立刻了解完整的业务运营,而无需移动数据。
无需设置和管理数据仓库基础设施,即可在几秒钟内运行分析并进行扩展。AI 驱动的扩展和优化技术(提供预览版)使 Amazon Redshift Serverless 能够自动、主动地预置和扩展数据仓库容量,即使在最苛刻的工作负载下也能提供快速性能。该系统使用 AI 技术来学习各种关键维度的客户工作负载模式,例如并发查询、查询复杂性、数据量涌入和 ETL 模式。然后,它会全天持续调整资源并应用量身定制的性能优化。您可以设置所需的性能目标,数据仓库会自动扩展以保持稳定的性能。
基于传入查询的运行时间和资源要求,利用复杂的算法来对其进行预测和分类,从而动态管理性能和并发性,同时帮助您确定关键业务型工作负载的优先顺序。短查询加速(SQA)会从控制面板等应用程序中将短查询发送到快速队列进行即时处理,而不会将其排在大量查询之后。自动工作负载管理(WLM)使用机器学习来动态管理内存和并发性,有助于最大限度地提高查询吞吐量。此外,即使正在提交数百条查询,您现在也可以设定最重要的查询的优先顺序。当需要明确的用户操作来进一步提升 Amazon Redshift 性能时,Amazon Redshift Advisor 会提出建议。对于查询模式不可预测的动态工作负载,自动实体化视图通过自动刷新、自动查询重写、增量刷新和持续监控 Amazon Redshift 集群来提高查询吞吐量、降低查询延迟、缩短执行时间。自动表格优化可选择排序键和分布键以优化集群工作负载的性能。如果 Amazon Redshift 确定应用键可以提高集群性能,会自动对表进行更改,而不需要管理员干预。使用其他功能,例如自动 Vacuum 删除、自动表格排序和自动分析,无需再对 Amazon Redshift 集群进行手动维护和优化就能使新集群和生产工作负载达到最佳性能。
使用简单的 API 与 Amazon Redshift 进行交互:Amazon Redshift 让您能够轻松访问所有类型的传统、云原生和容器化无服务器 Web 服务型应用程序以及事件驱动的应用程序中的数据。Amazon Redshift Data API 可以通过 AWS 软件开发工具包(例如 Python、Go、Java、Node.js、PHP、Ruby 和 C++)支持的编程语言和平台简化数据的访问、摄取和传出。使用 Data API,无需再配置驱动程序和管理数据库连接。您只需调用 Data API 提供的安全 API 端点,即可对 Amazon Redshift 集群运行 SQL 命令。Data API 负责管理数据库连接和缓冲数据。Data API 是异步的,因此您可以随后检索结果。您的查询结果可存储 24 小时。
在控制台内运行查询,或连接 SQL 客户端工具、库或数据科学工具,包括 QuickSight、Tableau、Microsoft Power BI、Alteryx、Querybook、Jupyter Notebook、Informatica、dbt、MicroStrategy 和 Looker。
在 Amazon Redshift 查询编辑器中使用简单的英语编写查询,在数据访问权限范围内安全地生成准确的 SQL 代码建议。
Amazon Redshift 与 Amazon Bedrock 无缝集成,可通过标准 SQL 命令直接实现生成式人工智能功能。这种集成让数据团队能够使用 Anthropic Claude 和 Amazon Titan 等基础模型,以执行文本分析、翻译和情感检测等任务,而不会增加基础设施的复杂性。用户可以在现有的数据分析工作流程中无缝调用人工智能模型,以改变从企业数据中提取见解的方式。
Amazon Redshift ML 使数据分析师、数据科学家、BI 专业人员和开发人员可以更轻松地使用 SQL 创建、训练和部署 SageMaker 模型。借助 Amazon Redshift ML,您可以使用 SQL 语句在其 Amazon Redshift 数据上创建和训练 SageMaker 模型,然后将这些模型用于预测,例如直接在查询和报告中进行流失检测、财务预测、个性化和风险评分。将大型语言模型引入 Amazon Redshift,以执行高级自然语言处理任务,例如文本摘要、实体提取和情绪分析,从而使用 SQL 从数据中获得更深入的见解。