发布于: Apr 27, 2022
Amazon SageMaker Data Wrangler 可将汇总和准备机器学习(ML)数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并完成数据准备工作流程的每个步骤,包括通过单个可视界面进行数据选择、清理、探查和可视化。借助 SageMaker Data Wrangler 的数据选择工具,您可以从多个数据源中快速选择数据,例如 Simple Storage Service(Amazon S3)、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon SageMaker Feature Store、Databricks Delta Lake 和 Snowflake。
今天我们宣布正式推出数据随机采样功能,在从 S3 导入数据时可以进行数据随机采样,并且推出了新转换,可以通过 Amazon SageMaker Studio 中的 Amazon SageMaker Data Wrangler 创建数据集的随机采样或分层采样。以前,在为 ML 应用程序准备数据时,必须编写代码来创建随机采样或分层采样。现在,通过导入的随机采样选项,您现在可以在将数据导入 Data Wrangler 时在 S3 上创建数据的随机采样。此外,借助我们针对随机采样和分层采样的新转换,您可以为数据集创建以下采样类型:
- 随机采样。如果您的数据集过大而无法准备进行交互,随机采样非常有用。使用随机采样转换,您可以随机采样数据集的一部分,为机器学习做好准备。
- 分层采样。如果您的数据包含罕见事件(例如欺诈性信用卡交易,其发生率远远低于所有信用卡交易的 1%),并且您希望在采样数据集中保留罕见事件的比例时,分层采样非常有用。
- First K 采样。First K 采样使用数据集的前 K 行创建样本,其中 K 是某个数字。例如,如果 K 是1000,那么将创建一个包含数据集前 1000 行的样本。如果您只需要正确的列架构来准备数据,First K 采样非常有用。First K 采样的另一个好处在于,它非常节省时间。
要了解更多有关如何使用 Amazon SageMaker Data Wrangler 对数据采样的信息,请阅读博客。