亚马逊AWS官方博客
使用 AWS Glue 对非原生 JDBC 数据源运行 ETL 作业
AWS Glue 是一项完全托管的ETL(提取、转换和加载) 服务,可以帮助您更轻松地准备和加载数据以进行分析。在 AWS 管理控制台上,简单点击几下,就可以创建和运行 ETL 作业。只需要将 AWS Glue 指向您的数据源,AWS Glue 就可以发现您的数据,并将相关的元数据(例如,表定义和结构)存储在 AWS Glue的数据目录中。
使用 Performance Insights 优化 Amazon RDS for MySQL
Amazon RDS Performance Insights为 Amazon RDS 提供了一个直观的调优界面,可帮助您发现和调查 RDS 数据库的性能问题。对于所有数据库引擎类型(例如 RDS for MySQL、RDS for PostgreSQL 和 Amazon Aurora)而言, Performance Insights 的外观和感觉都相同。当然每种引擎的实现又略有不同
使用 AWS Glue 提取 Salesforce.com 中的数据并使用 Amazon Athena 进行分析
在本文中,我将向您展示如何使用 AWS Glue 提取您 Salesforce.com 账户里的数据,并将其保存到 Amazon S3。然后,将来自 Salesforce.com 的账户数据与来自单独的订单管理系统的订单数据结合起来,并使用 Amazon Athena 来生成报告。
使用 AWS Glue 和 Amazon S3 构建数据湖基础
数据湖是一种越来越受欢迎的数据存储和分析方法,可解决处理海量异构数据的难题。数据湖可让组织将所有结构化和非结构化数据存储在一个集中式存储库中。由于数据可以按原样存储,因此无需将其转换为预先定义的数据结构(区别于传统关系型数据仓库)。
使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能
经 EMRFS S3 优化的提交程序是一款新的输出提交程序,可用于 Amazon EMR 5.19.0 及更高版本的 Apache Spark 作业。此提交程序使用 EMR File System (EMRFS) 可提高将 Apache Parquet 文件写入 Amazon S3 时的性能。在本文中,我们将运行性能基准测试,将此经优化的新提交程序算法与现有提交程序算法(即 FileOutputCommitter 算法版本 1 和 2)进行比较。最后,我们会讨论新提交程序的当前限制,并在可能的情况下提供解决方法。
在 Amazon EMR 上使用 S3DistCp 在 HDFS 和 Amazon S3 之间高效迁移数据的七个技巧
对于 Amazon EMR 客户来说,尽管在 Amazon S3 中直接处理数据早已稀松平常,但有时您可能需要将数据从 S3 复制到 Amazon EMR 集群上的 Hadoop 分布式文件系统 (HDFS) 中。此外,您的某个使用案例还可能需要在存储桶或区域之间迁移大量数据。在这类使用案例中,简单的复制操作对大型数据集来说显然不适用。Amazon EMR 可以提供这方面的帮助。它提供了一个实用程序 S3distCp,用以帮助将数据从 S3 迁移到其他 S3 位置或集群上的 HDFS。
迁移到 Amazon EMR上基于 Amazon S3 的 Apache Hbase:指导和最佳实践
这篇博文提供了有关如何从 Apache HBase on HDFS 迁移到在 Amazon EMR 上使用 基于Amazon S3的Apache Hbase的指导和最佳实践。
使用阻止公有访问配置保护您的 Amazon EMR 集群免受意外网络攻击
本文讨论了一种新的账户级功能,称为阻止公有访问 (Block Public Access ,BPA) 配置,可以帮助管理员在同一个区域中的所有 EMR 集群中强制执行一种通用的公共访问规则。
Annalect 如何使用 Amazon Redshift 构建事件日志数据分析解决方案
在本文中,我们将介绍如何在 AWS 上构建一个解决方案,以管理、增强和分析来自我们广告技术合作伙伴的事件日志数据。我们使用 Amazon S3 作为存储,使用 Amazon EC2 和 AWS Batch 进行计算,使用AWS Glue Data Catalog、Amazon Redshift 以及 Amazon Redshift Spectrum 进行分析。该架构高度可扩展、按需分配底层基础设施,被证明是面向我们数据分析用户的高性能、高性价比的解决方案。
Amazon QuickSight 更新:仪表盘中可使用多个工作表、轴标签方向选项等等
今天,我们很高兴地宣布 Amazon QuickSight 的一系列更新,仪表盘内容更丰富,常规和嵌入式控制面板中具有多个工作表。