- Amazon SageMaker›
- Architettura Lakehouse›
- Domande frequenti
Domande frequenti sull’architettura lakehouse
Argomenti della pagina
Generale
Apri tuttoLa nuova generazione di Amazon SageMaker è basata su un’architettura lakehouse aperta, pienamente compatibile con Apache Iceberg. Unifica tutti i dati nei data lake di Amazon S3, comprese le Tabelle S3, e nei data warehouse di Amazon Redshift, in modo da supportarti nello sviluppo di potenti applicazioni di analisi, IA e machine learning (ML) su una singola copia dei dati. Connetti i dati da origini aggiuntive tramite integrazioni Zero-ETL con database e applicazioni operative, effettua la federazione delle query con le origini dati e la federazione dei cataloghi per le tabelle remote di Apache Iceberg. Consente di trasferire i dati da database operativi come Amazon DynamoDB, Amazon Aurora MySQL e applicazioni come SAP e Salesforce nel lakehouse quasi in tempo reale tramite integrazioni Zero-ETL. Accedi ed esegui query sui dati a livello locale con funzionalità di interrogazione federate tra origini dati quali Google BigQuery, Snowflake e altre. Grazie alla federazione dei cataloghi per i cataloghi Iceberg remoti, è possibile accedere alle tabelle Iceberg archiviate in S3 e catalogate in Databricks Unity Catalog, Snowflake Polaris Catalog e in qualsiasi catalogo Iceberg-REST personalizzato direttamente dai motori di analisi AWS. Ottieni la flessibilità per accedere ed eseguire query sui dati a livello locale in modo flessibile, con tutti gli strumenti e i motori compatibili con Iceberg. Proteggi i dati definendo controlli di accesso integrati che vengono applicati a tutti gli strumenti e i motori di analisi e machine learning (ML).
L’architettura lakehouse presenta principalmente tre vantaggi:
- Accesso unificato ai dati: il lakehouse unifica i dati tra i data lake di Amazon S3, incluse le Tabelle S3 e i data warehouse di Amazon Redshift. Connetti i dati da origini aggiuntive tramite integrazioni Zero-ETL con database e applicazioni operative, effettua la federazione delle query con le origini dati e la federazione dei cataloghi per le tabelle remote di Apache Iceberg. Consente di trasferire i dati da database operativi come Amazon DynamoDB, Amazon Aurora MySQL e applicazioni come SAP e Salesforce nel lakehouse quasi in tempo reale tramite integrazioni Zero-ETL. Accedi ed esegui query sui dati a livello locale con funzionalità di interrogazione federate tra origini dati quali Google BigQuery, Snowflake e altre. Utilizza la federazione dei cataloghi per accedere direttamente alle tabelle Iceberg archiviate in S3 e catalogate in Databricks Unity Catalog, Snowflake Polaris Catalog e in qualsiasi catalogo Iceberg-REST personalizzato direttamente dai motori di analisi AWS.
- Compatibilità con Apache Iceberg: il lakehouse offre la flessibilità di accedere ed eseguire query su tutti i tuoi dati in loco, da un’ampia gamma di servizi AWS, strumenti e motori open source e di terze parti, compatibili con Apache Iceberg. Puoi utilizzare strumenti e motori di analisi a tua scelta come SQL, Apache Spark, business intelligence (BI) e strumenti di IA/ML e collaborare con una singola copia dei dati archiviati su Amazon S3 o Amazon Redshift.
- Accesso sicuro ai dati: proteggi i tuoi dati con controlli di accesso integrati e granulari a livello di tabella, colonna o cella e applica tali autorizzazioni a tutti gli strumenti e ai motori di analisi. Per soddisfare i requisiti di sicurezza, utilizza policy di accesso basate su tag, attributi o ruoli. Condividi i dati in tutta l’organizzazione senza la necessità di creare copie.
Amazon SageMaker si basa su un’architettura lakehouse aperta che unifica i dati di tutto il patrimonio dei dati. I dati provenienti da diverse origini sono organizzati in container logici chiamati cataloghi. Ogni catalogo rappresenta origini come data warehouse di Amazon Redshift, data lake di S3 o database. È anche possibile creare nuovi cataloghi per archiviare i dati in Amazon S3 o nello Storage gestito di Amazon Redshift (Redshift Managed Storage, RMS). Il lakehouse è accessibile direttamente da SageMaker Unified Studio ed è possibile accedere ai dati in esso contenuti da motori compatibili con Apache Iceberg, come Apache Spark, Athena o Amazon EMR. Inoltre, puoi anche connetterti e analizzare i dati nel lakehouse utilizzando strumenti SQL. I dati sono protetti mediante la definizione di controlli di accesso granulari applicati agli strumenti e ai motori che vi accedono.
Funzionalità
Apri tuttoAmazon SageMaker unifica il controllo degli accessi ai dati con due funzionalità: 1) il lakehouse consente di definire autorizzazioni granulari. Queste autorizzazioni vengono applicate da motori di query come Amazon EMR, Athena e Amazon Redshift. 2) Il lakehouse consente di accedere direttamente ai tuoi dati, eliminando la necessità di farne delle copie. È possibile mantenere una singola copia dei dati e un unico set di policy di controllo degli accessi per usufruire del controllo unificato e granulare degli accessi nel lakehouse.
L’architettura del lakehouse di SageMaker si basa su più cataloghi tecnici, tra cui il Catalogo dati AWS Glue, Lake Formation e Amazon Redshift, per fornire un accesso unificato ai dati tra data lake e data warehouse. Utilizza il Catalogo dati AWS Glue e Lake Formation per archiviare le definizioni e le autorizzazioni delle tabelle. Le autorizzazioni dettagliate di Lake Formation sono disponibili per le tabelle definite nel lakehouse. Puoi gestire le definizioni delle tabelle nel Catalogo dati AWS Glue e definire autorizzazioni granulari, ad esempio a livello di tabella, a livello di colonna e a livello di cella, per proteggere i tuoi dati. Inoltre, utilizzando le funzionalità di condivisione dei dati tra account, puoi abilitare la condivisione senza copie per rendere disponibili i dati per una collaborazione sicura.
Sì. La libreria client open source di Apache Iceberg è necessaria per accedere al lakehouse. I clienti che utilizzano motori open source di terze parti o autogestiti come Apache Spark o Trino devono includere la libreria client di Apache Iceberg nei loro motori di query per accedere al lakehouse.
Sì, tramite una libreria client di Apache Iceberg, puoi leggere e scrivere dati sul Amazon Redshift esistente dai motori Apache Spark su servizi AWS come Amazon EMR, AWS Glue, Athena e Amazon SageMaker o Apache Spark di terze parti. Tuttavia, è necessario disporre delle autorizzazioni di scrittura appropriate relative alle tabelle per scrivere dati su di esse.
Sì, puoi unire le tabelle del data lake su Amazon S3 con quelle del data warehouse di Amazon Redshift su più database utilizzando un motore a tua scelta, come Apache Spark.
Le Tabelle Amazon S3 ora si integrano perfettamente con SageMaker Lakehouse, semplificando l’esecuzione di query e l’unione di Tabelle S3 con i dati nei data lake di S3, nei data warehouse di Amazon Redshift e nelle origini dati di terze parti. SageMaker Lakehouse offre la flessibilità necessaria per accedere ai dati ed eseguire query sui dati stessi in locale su Tabelle S3, bucket S3 e warehouse Redshift utilizzando lo standard aperto Apache Iceberg. Puoi proteggere e gestire centralmente i dati nel lakehouse definendo autorizzazioni dettagliate, che vengono applicate in modo coerente in tutti gli strumenti di analisi e ML e in tutti i motori.
Integrazioni Zero-ETL
Apri tuttoIl lakehouse di SageMaker supporta integrazioni Zero-ETL con Amazon DynamoDB, Amazon Aurora MySQL, Amazon Aurora PostgreSQL, Amazon RDS MySQL e otto applicazioni: SAP, Salesforce, Salesforce Pardot, ServiceNow, Facebook ads, Instagram ads, Zendesk e Zoho CRM.
È possibile configurare e monitorare le integrazioni Zero-ETL tramite la console di AWS Glue. Una volta importati i dati, è possibile accedervi ed eseguire query su di essi tramite motori di query compatibili con Apache Iceberg. Per maggiori dettagli, visita la pagina sulle integrazioni Zero-ETL.
Per saperne di più sui prezzi di Zero-ETL, visita le pagine dei prezzi del lakehouse di SageMaker e AWS Glue.
Prezzi
Apri tuttoVisita la pagina dei prezzi del lakehouse di SageMaker per i dettagli.
Disponibilità
Apri tuttoLa nuova generazione di Amazon SageMaker è disponibile negli Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Asia Pacifico (Hong Kong), Asia Pacifico (Seoul), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Canada (Centrale), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Stoccolma) e Sud America (San Paolo). Per aggiornamenti futuri, consulta l’elenco dei servizi regionali AWS.
Sì. Il lakehouse archivia i metadati nel Catalogo dati AWS Glue e offre lo stesso SLA di Amazon Glue.
Nozioni di base
Apri tuttoIl lakehouse di SageMaker è accessibile da Amazon SageMaker Unified Studio. Partendo da SageMaker Unified Studio, puoi creare un nuovo progetto o selezionarne uno esistente. Dal progetto, fai clic su Dati nella barra di navigazione a sinistra per visualizzare il pannello Esplorazione dati. Il pannello Esplorazione dati offre una panoramica dei dati a cui hai accesso all’interno del lakehouse. Per aiutarti a iniziare, insieme al tuo progetto viene creato automaticamente un catalogo gestito S3 predefinito in cui puoi aggiungere nuovi file di dati al lakehouse. Inoltre, dal pannello Esplorazione dati, quando fai clic su (+) Aggiungi dati, puoi continuare a sviluppare il lakehouse creando ulteriori cataloghi gestiti nello Storage gestito di Redshift, collegandoti a origini dati federate o caricando dati nei cataloghi gestiti.
Se disponi di database e cataloghi esistenti, puoi aggiungerli al lakehouse concedendo le autorizzazioni per il ruolo di progetto tramite AWS Lake Formation. Ad esempio, è possibile portare il data warehouse di Amazon Redshift nel lakehouse registrando il cluster Redshift o il namespace serverless con il Catalogo dati Glue. Puoi quindi accettare l’invito al cluster o al namespace e concedere le autorizzazioni appropriate all’interno di Lake Formation per renderlo disponibile all’accesso.
No, non è necessario migrare i dati. L’architettura lakehouse di SageMaker consente di accedere ed eseguire query sui tuoi dati in loco, con lo standard aperto di Apache Iceberg. Puoi accedere direttamente ai tuoi dati nei data lake di Amazon S3, nelle Tabelle S3 e nei data warehouse di Amazon Redshift. È anche possibile connetterti a origini dati federate, come i data warehouse di Snowflake e di Google BigQuery, nonché a database operativi come PostgreSQL e SQL Server. I dati provenienti da database operativi e applicazioni di terze parti possono essere inseriti in cataloghi gestiti nel lakehouse quasi in tempo reale tramite integrazioni Zero-ETL, senza dover mantenere infrastrutture o pipeline complesse. Oltre a queste, puoi utilizzare centinaia di connettori AWS Glue per l’integrazione con le origini dati esistenti.
Per portare il data warehouse di Amazon Redshift nel lakehouse di Amazon SageMaker, accedi alla console di gestione Redshift e registra il cluster Redshift o il namespace serverless con il Catalogo dati Glue dal menu a discesa Azione. Puoi quindi accedere a Lake Formation e accettare l’invito al cluster o al namespace per creare un catalogo federato e concedere le autorizzazioni appropriate per renderlo disponibile all’accesso nel lakehouse. Le istruzioni sono disponibili nella documentazione qui. Queste attività possono essere eseguite anche utilizzando l’Interfaccia della linea di comando AWS (AWS CLI) o le API/SDK.
Per portare il data lake S3 nel lakehouse di Amazon SageMaker, è necessario prima catalogare il data lake di S3 nel Catalogo dati AWS Glue seguendo le istruzioni riportate qui. Dopo aver catalogato il data lake di Amazon S3 utilizzando il Catalogo dati AWS Glue, i dati saranno disponibili per l’accesso nel lakehouse. In AWS Lake Formation, è possibile concedere autorizzazioni a un ruolo di progetto di Unified Studio, in modo da rendere il data lake di S3 disponibile per l’uso in SageMaker Unified Studio.
L’architettura del lakehouse di Amazon SageMaker unifica l’accesso a tutti i tuoi dati su data lake di Amazon S3, data warehouse di Amazon Redshift e origini dati di terze parti. Tabelle Amazon S3 offre il primo archivio di oggetti cloud con supporto Apache Iceberg integrato. Il lakehouse di Amazon SageMaker si integra con Tabelle Amazon S3, consentendo di accedere alle tabelle S3 dai servizi di analisi di AWS, quali Amazon Redshift, Amazon Athena, Amazon EMR, AWS Glue o motori compatibili con Apache Iceberg (Apache Spark o PyIceberg). Il lakehouse permette inoltre di gestire centralmente le autorizzazioni granulari di accesso ai dati per le Tabelle S3 e per gli altri dati, applicandole in modo uniforme su tutti i motori.
Per iniziare, accedi alla console di Amazon S3 e abilita l’integrazione del bucket della tabella S3 con i servizi di analisi di AWS. Una volta abilitata l’integrazione, accedi a AWS Lake Formation e concedi le autorizzazioni al bucket della tabella S3 al ruolo del progetto di SageMaker Unified Studio. Puoi quindi utilizzare i servizi di analisi integrati in SageMaker Unified Studio per eseguire query e analizzare i dati nelle Tabelle S3. È possibile persino unire i dati delle Tabelle Amazon S3 con altre origini, come il data warehouse di Amazon Redshift, le origini dati di terze parti e quelle federate (Amazon DynamoDB, Snowflake o PostgreSQL).
Il lakehouse è accessibile direttamente da Amazon SageMaker Unified Studio. SageMaker Unified Studio offre un’esperienza integrata che consente di accedere a tutti i dati del lakehouse e di utilizzarli con strumenti AWS familiari per sviluppare modelli, utilizzare l’IA generativa, elaborare i dati e analizzare SQL. Per iniziare, puoi accedere al tuo dominio SageMaker utilizzando le tue credenziali aziendali su SageMaker Unified Studio. In SageMaker Unified Studio, gli amministratori possono creare progetti in pochi passaggi scegliendo un profilo di progetto specifico. Puoi quindi scegliere un progetto per lavorare con i dati nel lakehouse. Una volta selezionato un progetto, ottieni una visione unificata dei dati nel lakehouse nel pannello Esplorazione dati e puoi accedere ai motori di query e agli strumenti di sviluppo in un’unica posizione.
L’architettura aperta del lakehouse di SageMaker offre inoltre la flessibilità di accedere ai dati e sottoporli a query con tutti gli strumenti e i motori compatibili con Apache Iceberg. È possibile utilizzare strumenti e motori di analisi a propria scelta, come SQL, Apache Spark, strumenti di business intelligence (BI) e IA/ML, oltre a collaborare con i dati archiviati nel lakehouse.
Sì. L’architettura aperta del lakehouse di SageMaker offre la flessibilità di accedere ai dati e sottoporli a query con tutti gli strumenti e i motori compatibili con Apache Iceberg. Puoi utilizzare strumenti e motori di analisi a tua scelta come SQL, Apache Spark, business intelligence (BI) e strumenti di IA/ML e collaborare con i dati archiviati nel lakehouse.