发布于: Dec 5, 2022
Amazon SageMaker Studio 是适用于机器学习的完全集成式开发环境 (IDE)。Studio 附带与 Amazon EMR 的内置集成,因此,数据科学家可以使用 Studio 笔记本中的 Apache Spark 等框架以 PB 级的规模交互准备数据。我们很高兴地宣布,SageMaker Studio 现在支持在通过 Amazon EMR 访问数据时使用 AWS Lake Formation 应用精细数据访问控制。
迄今为止,您在 EMR 集群上运行的所有作业均使用相同的 IAM 角色(集群的 EC2 实例配置文件)来访问数据。因此,为了运行需要访问不同数据来源(例如不同的 S3 存储桶)的作业,必须使用允许访问所有此类数据源的集合的策略来配置 EC2 实例配置文件。此外,为了使用户组具有对数据的不同访问权限,您还必须创建单独的集群,每组一个,这会产生操作开销。另外,从 Studio 笔记本提交到 EMR 的作业无法通过 AWS LakeFormation 应用精细数据访问控制。
即日起,当您从 SageMaker Studio 笔记本连接到 EMR 集群时,可以选择想要与之连接的 IAM 角色(称为运行时 IAM 角色)。从 Studio 笔记本创建的 Apache Spark、Hive 或 Presto 作业将仅访问附加到运行时角色的策略允许的数据和资源。此外,当从使用 AWS LakeFormation 托管的数据湖访问数据时,可以使用附加到运行时角色的策略强制执行表和列级访问。使用这项新功能,多个 SageMaker Studio 用户可以连接到同一个 EMR 集群,每个用户都使用具有自定义数据访问权限的运行时角色。在共享集群上,用户会话完全彼此独立。使用此功能,客户可以简化 EMR 集群的预置,从而缩减运营开销并节省成本。
此功能在连接到 Amazon EMR 6.9 的 SageMaker Studio 中提供,并在如下 AWS 区域正式推出:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)和欧洲地区(巴黎)。要了解更多信息,请参阅此博客。