Veröffentlicht am: Aug 8, 2023
Amazon EMR Studio ist eine integrierte Entwicklungsumgebung (IDE), die es Daten-Wissenschaftlern und Data Engineers erleichtert, Big-Data- und Analyseanwendungen zu entwickeln, zu visualisieren und zu debuggen, die in PySpark, Python, Scala und R geschrieben wurden. EMR Studio bietet vollständig verwaltete Jupyterlab Notebooks und Tools wie Spark UI und YARN Timeline Service, um das Debuggen zu vereinfachen. Wir freuen uns, heute bekannt zu geben, dass EMR-Studio-Workspaces jetzt in AWS Lake Formation die Anwendung differenzierter Datenzugriffskontrollen beim Zugriff auf Daten über EMR in EC2-Clustern unterstützen.
Wenn Sie aus EMR-Studio-Workspaces eine Verbindung zu EMR-Clustern herstellen, können Sie jetzt die IAM-Rolle (genannt Laufzeit-IAM-Rolle) auswählen, zu der Sie eine Verbindung herstellen möchten. Interaktive Notebooks von Apache Spark werden nur auf die Daten und Ressourcen zugreifen, die von den an die Laufzeit-Rolle angehängten Richtlinien zugelassen werden. Wenn von Data Lakes aus auf Daten zugegriffen wird, die von AWS LakeFormation verwaltet werden, können Sie mit den an die Laufzeit-Rolle angehängten Richtlinien einen Zugriff auf Tabellen- und Spaltenebene erzwingen. Mit dieser neuen Funktion können mehrere Benutzer eine Verbindung zum selben EMR-Cluster aus ihren EMR-Studio-Workspaces herstellen, wobei jeder Benutzer eine mit benutzerdefinierten Datenzugriffsberechtigungen beschränkte Laufzeit-Rolle verwendet. Die Benutzersitzungen sind im geteilten Cluster vollständig voneinander isoliert. Dies kann auch bei interaktiven Anwendungsfällen die Bereitstellung von EMR-Clustern vereinfachen und damit den Betriebsaufwand verringern sowie Kosten einsparen.
Dieses Feature ist allgemein verfügbar, wenn eine Verbindung zu Amazon EMR in EC2-Clustern in den Release-Versionen 6.11+ in allen Regionen, in denen EMR Studio unterstützt wird, hergestellt wird. Weitere Informationen finden Sie in der EMR-Dokumentation.