Tabelle Amazon S3

Ottimizza le prestazioni e i costi delle query man mano che il tuo data lake scala

Archivia dati tabulari su larga scala in S3

Le tabelle Amazon S3 offrono il primo archivio di oggetti cloud con supporto Apache Iceberg integrato e semplificano l'archiviazione di dati tabulari su larga scala. L'ottimizzazione continua delle tabelle scansiona e riscrive automaticamente i relativi dati in background, ottenendo prestazioni delle query fino a 3 volte più veloci rispetto alle tabelle Iceberg non gestite. Queste ottimizzazioni delle prestazioni continueranno a migliorare nel tempo. Inoltre, le tabelle S3 includono ottimizzazioni specifiche per i carichi di lavoro Iceberg che forniscono transazioni al secondo fino a 10 volte superiori rispetto alle tabelle Iceberg archiviate in bucket S3 generici. Per maggiori dettagli sui miglioramenti delle prestazioni di query relative alle tabelle S3, consulta il blog.

Tabelle S3 supporta lo standard Apache Iceberg consentendo ai più diffusi motori di query AWS e di terze parti di interrogare facilmente tuoi dati tabulari. Usa le tabelle S3 per archiviare dati tabulari come transazioni di acquisto giornaliere, dati dei sensori di streaming o impressioni degli annunci come una tabella Iceberg in S3 e ottimizzare prestazioni e costi man mano che i dati si evolvono utilizzando la manutenzione automatica della tabella. Leggi il blog per ulteriori informazioni.

Vantaggi

Se hai appena iniziato o stai gestendo migliaia di tabelle nell'ambiente Iceberg, semplifica i data lake su qualsiasi scala.

Ottieni prestazioni delle query fino a 3 volte più veloci grazie all'ottimizzazione continua delle tabelle rispetto a tabelle Iceberg non gestite, oltre a transazioni al secondo fino a 10 volte superiori rispetto alle tabelle Iceberg archiviate in bucket S3 generici.

Esegui attività di manutenzione continua delle tabelle come la compattazione, la gestione degli snapshot e la rimozione di file senza riferimenti per ottimizzare automaticamente l'efficienza e i costi delle query nel tempo.

Accedi alle funzionalità di analisi avanzate di Iceberg e interroga i dati utilizzando servizi AWS noti come Amazon Athena, Redshift ed EMR tramite l'integrazione dell'anteprima di Tabelle S3 con Catalogo dati Amazon SageMaker Lakehouse. Inoltre, è possibile utilizzare applicazioni di terze parti compatibili con Iceberg REST come Apache Spark, Apache Flink, Trino, DuckDB e PyIceberg per leggere e scrivere dati in Tabelle S3.

Crea tabelle come risorse AWS di prima classe e applica le autorizzazioni per accedervi facilmente.

Come funziona

Le tabelle S3 forniscono uno spazio S3 dedicato per l'archiviazione di dati strutturati nel formato Apache Parquet. All'interno di un bucket di tabelle, puoi creare tabelle come risorse di prima classe direttamente in S3. Queste tabelle possono essere protette con autorizzazioni a livello di tabella definite in policy basate sull'identità o sulle risorse e sono accessibili da applicazioni o strumenti che supportano lo standard Apache Iceberg. Quando crei una tabella nel tuo bucket di tabelle, i dati sottostanti in S3 vengono archiviati come dati Parquet. Quindi, S3 mantiene i metadati necessari per fare in modo che i dati Parquet possano essere sottoposti a query da parte delle tue applicazioni. I bucket di tabelle includono una libreria client utilizzata dai motori di query per navigare e aggiornare i metadati Iceberg delle tabelle nel bucket di tabelle. Questa libreria, insieme alle API S3 aggiornate per le operazioni sulle tabelle, consente a più client di leggere e scrivere dati nelle tabelle in modo sicuro. Nel tempo, S3 ottimizza automaticamente i dati Parquet sottostanti riscrivendo o “compattando” gli oggetti. La compattazione ottimizza i dati su S3 per migliorare le prestazioni delle query e ridurre al minimo i costi. Consulta la guida per l'utente per ulteriori informazioni

Video dimostrativo delle tabelle Amazon S3

Clienti

  • Genesys

    Genesys è un leader globale nel cloud nell'Experience Orchestration basata sull'intelligenza artificiale. Grazie a funzionalità avanzate di gestione dell'intelligenza artificiale, del digitale e del coinvolgimento della forza lavoro, Genesys aiuta più di 8.000 organizzazioni in oltre 100 paesi a fornire esperienze personalizzate ed empatiche a clienti e dipendenti, beneficiando al contempo di una maggiore agilità e di risultati aziendali.

    Amazon S3 Tables rappresenterà un'aggiunta trasformativa alla nostra architettura dei dati, in particolare con il supporto gestito di Iceberg, che crea efficacemente un livello di vista materializzata per diverse esigenze di analisi dei dati. Questa offerta ha il potenziale per aiutare Genesys a semplificare i flussi di lavoro di dati complessi eliminando ulteriori livelli di gestione delle tabelle, con S3 che gestisce automaticamente le principali attività di manutenzione come la compattazione, la gestione delle istantanee e la pulizia dei file senza riferimenti. La capacità di leggere e scrivere tabelle Iceberg direttamente da S3 ci aiuterà a migliorare le prestazioni e a creare nuove possibilità per integrare perfettamente i dati nel nostro ecosistema di analisi. Questa interoperabilità, combinata con i miglioramenti delle prestazioni, posiziona S3 Tables come parte fondamentale della nostra strategia futura per fornire informazioni sui dati veloci, flessibili e affidabili.

    Glenn Nethercutt, Chief Technology Officer presso Genesys
  • Pendulum

    Pendulum è una piattaforma di Brand Intelligence che offre la copertura più completa al mondo su contenuti video, audio e testuali per identificare in modo proattivo rischi e opportunità, consentendo una migliore analisi del processo decisionale e del monitoraggio in tutta l'azienda.

    In Pendulum Intelligence, analizziamo i dati provenienti da centinaia di milioni di canali e fonti social. Tabelle Amazon S3 ha trasformato il modo in cui gestiamo il nostro data lake, che elabora migliaia di ore di contenuti video e audio analizzati estraendo il contesto da immagini e altri contenuti multimediali quasi in tempo reale utilizzando i nostri strumenti di machine learning. Eliminando l'onere della gestione delle tabelle, inclusa la compattazione, le istantanee e la pulizia dei file, il nostro team può concentrarsi su ciò che conta di più: ricavare informazioni fruibili da enormi set di dati. La perfetta integrazione con il nostro stack di analisi (Amazon Athena, AWS Glue e Amazon EMR) ha notevolmente migliorato la nostra capacità di elaborare dati complessi su larga scala.

    Abdurrahman Elbuni, Architetto dei big data del cloud presso Pendulum
  • SnapLogic

    SnapLogic è un pioniere nell'integrazione basata sull'intelligenza artificiale. La piattaforma SnapLogic per l'integrazione generativa accelera la trasformazione digitale in tutta l'azienda per progettare, implementare e gestire agenti e integrazioni di intelligenza artificiale che automatizzano le attività, prendono decisioni in tempo reale e si integrano facilmente nei flussi di lavoro esistenti.

    Amazon S3 Tables, con supporto Apache Iceberg incorporato e integrazione dei servizi di analisi AWS, aiuta le aziende a ottimizzare i costi di analisi dei dati trasformando il modo in cui utilizzano i dati aziendali per analisi, conformità e iniziative di intelligenza artificiale. Automatizzando complesse attività di gestione dei dati e fornendo audit trail completi delle modifiche ai dati, i team possono analizzare istantaneamente i dati storici, mantenere la conformità normativa e accelerare le informazioni aziendali riducendo significativamente i costi tecnologici.

    Dominic Wellington, Enterprise Architect presso SnapLogic
  • Zus Health

    Zus è una piattaforma condivisa di dati sanitari progettata per accelerare l'interoperabilità di tali dati fornendo informazioni sui pazienti facili da usare tramite API, componenti integrati e integrazioni dirette EHR.

    In qualità di azienda sanitaria che gestisce enormi quantità di dati dei pazienti che cambiano frequentemente, abbiamo deciso di investire in Apache Iceberg perché risolve molti punti deboli di Apache Hive relativi al partizionamento e all'automazione, con l'ulteriore vantaggio di una più ampia interoperabilità. Una delle nostre maggiori sfide con Iceberg è stata la comprensione e la gestione dell'ottimizzazione delle tabelle. Ecco perché siamo entusiasti di S3 Tables e delle funzionalità di ottimizzazione gestita. La possibilità di ridurre il carico di lavoro degli sviluppatori per la manutenzione delle tabelle ci consentirà di concentrarci maggiormente sulla fornitura di dati di alta qualità e di informazioni preziose ai nostri clienti.

    Sonya Huang, Consulting Software Engineer presso Zus Health

Partner e integrazioni

  • Daft

    Daft è un motore unificato per ingegneria dei dati, analisi e ML/AI, che espone le interfacce DataFrame SQL e Python come cittadini di prima classe ed è scritto in Rust. Daft offre un'esperienza interattiva locale rapida e piacevole, scalabile fino a carichi di lavoro distribuiti della scala di petabyte.

    Tabelle Amazon S3 è il complemento perfetto al supporto di Daft per Apache Iceberg. Sfruttando le sue integrazioni con AWS Lake Formation e AWS Glue, siamo stati in grado di estendere facilmente le nostre funzionalità di lettura e scrittura di Iceberg esistenti a Tabelle S3 sfruttando al contempo le sue prestazioni ottimizzate. Attendiamo con impazienza l'evoluzione di questo nuovo servizio e siamo entusiasti di fornire il miglior supporto per le Tabelle S3 per l'ecosistema Python Data Engineering e ML/AI.

    Sammy Sidhu, CEO e cofondatore presso Daft
  • Dremio

    Dremio è la piattaforma intelligente Lakehouse che accelera l'intelligenza artificiale e l'analisi offrendo un motore SQL leader di mercato, un catalogo di dati aperto e interoperabile e una piattaforma sicura, scalabile e semplice da usare. La nostra leadership nelle community Apache Iceberg, Apache Polaris (incubating) e Apache Arrow consente alle organizzazioni di creare architetture lakehouse completamente aperte e ad alte prestazioni mantenendo flessibilità e controllo, eliminando il vincolo del fornitore.

    Dremio è lieta di supportare la disponibilità generale di Tabelle Amazon S3. Supportando la specifica Apache Iceberg REST Catalog (IRC), S3 Tables garantisce una perfetta interoperabilità con Dremio, consentendo agli utenti di beneficiare di un motore SQL ad alte prestazioni in grado di interrogare le tabelle Apache Iceberg gestite in bucket tabulari S3 ottimizzati. Questa collaborazione rafforza l'importanza degli standard aperti nell'ecosistema Lakehouse, eliminando la complessità dell'integrazione e accelerando l'adozione da parte dei clienti. Con Tabelle Amazon S3 e il supporto IRC, le organizzazioni ottengono la flessibilità e la scelta necessarie per creare un'architettura lakehouse unificata nell'era dell'IA.

    James Rowland-Jones, Vicepresidente, Prodotti presso Dremio
  • DuckDB Labs

    DuckDB Labs è l'azienda fondata dai creatori di DuckDB, un noto strumento universale per la gestione dei dati. L'azienda impiega i principali contributori al sistema DuckDB. DuckDB è un software gratuito e open source con licenza MIT governato da DuckDB Foundation, una fondazione indipendente senza scopo di lucro. Grazie alla sua facilità d'uso e portabilità, il progetto DuckDB permette al pubblico generale di accedere a un'elaborazione analitica rapida.

    Tabelle Amazon S3 si allinea perfettamente alla visione di DuckDB di democratizzare l'analisi dei dati utilizzando formati di file aperti. La collaborazione tra AWS e DuckDB Labs ci consente di estendere ulteriormente il supporto di Iceberg in DuckDB e sviluppare un'integrazione perfetta con Tabelle S3. Riteniamo che la mentalità condivisa basata sulle batterie di DuckDB e Tabelle S3 crei un potente stack di analisi in grado di gestire un'ampia gamma di carichi di lavoro mantenendo una barriera all'ingresso incredibilmente bassa.

    Hannes Mühleisen, Amministratore delegato presso DuckDB Labs
  • HighByte

    HighByte è una società di software industriale che affronta le sfide dell'architettura e dell'integrazione dei dati affrontate dai produttori globali durante la trasformazione digitale. HighByte Intelligence Hub, il collaudato software Industrial DataOps dell'azienda, fornisce dati modellati e pronti all'uso ai servizi cloud AWS utilizzando un'interfaccia senza codice per accelerare i tempi di integrazione e accelerare l'analisi.

    Tabelle Amazon S3 è una nuova potente funzionalità che ottimizza la gestione, le prestazioni e l'archiviazione dei dati tabulari per i carichi di lavoro di analisi. L'integrazione diretta di HighByte Intelligence Hub con Tabelle Amazon S3 consente ai produttori globali di creare facilmente un data lake transazionale aperto per i propri dati industriali. Le tabelle S3 consentono l'interrogazione istantanea dei dati grezzi di Parquet, consentendo ai clienti di inviare informazioni contestualizzate dall'edge al cloud per un uso immediato che non richiedere ulteriori elaborazioni o trasformazioni. Ciò ha un impatto importante sull'ottimizzazione delle prestazioni e dei costi per i nostri clienti comuni.

    Aron Semle, Responsabile tecnico presso HighByte
  • PuppyGraph

    PuppyGraph è il primo motore di interrogazione grafica in tempo reale e zero-ETL che consente ai team di dati di interrogare il lakehouse esistente come grafico in pochi minuti, senza la necessità di costose migrazioni o manutenzioni. Scala fino a set di dati di dimensioni petabyte ed esegue complesse query multi-hop in pochi secondi, potenziando i casi d'uso dal rilevamento delle frodi alla sicurezza informatica e agli approfondimenti basati sull'intelligenza artificiale.

    Amazon S3 è da tempo la base della moderna infrastruttura di dati e il lancio di Tabelle S3 segna una pietra miliare importante, avvicinando Apache Iceberg a diventare lo standard universale per dati e intelligenza artificiale. Questa innovazione consente alle organizzazioni di sfruttare formati di tabella aperti ad alte prestazioni su S3, consentendo analisi multi-motore senza duplicazione dei dati. Per i clienti di PuppyGraph, significa che ora possono eseguire query grafiche in tempo reale direttamente sui loro dati S3, mantenendo informazioni fresche e scalabili senza il sovraccarico di un ETL complesso. Siamo entusiasti di far parte di questa evoluzione, rendendo l'analisi dei grafici tanto fluida quanto i dati stessi.

    Weimo Liu, cofondatore e CEO presso PuppyGraph
  • Snowflake

    Snowflake rende l'IA per le aziende semplice, connessa e affidabile. Migliaia di aziende in tutto il mondo, tra cui centinaia delle più grandi al mondo, utilizzano l'AI Data Cloud di Snowflake per condividere dati, creare applicazioni e potenziare il proprio business con l'IA.

    Siamo felicissimi di portare la magia di Snowflake su Tabelle Amazon S3. Grazie a questa collaborazione, i clienti di Snowflake potranno leggere ed elaborare senza problemi i dati archiviati in Tabelle S3 utilizzando le configurazioni Snowflake esistenti, eliminando la necessità di complesse migrazioni o duplicazioni di dati. Combinando le funzionalità di analisi delle prestazioni di livello mondiale di Snowflake con lo storage efficiente delle tabelle Apache Iceberg di Tabelle Amazon S3, le organizzazioni possono facilmente interrogare e analizzare i dati tabulari archiviati in Amazon S3.

    Rithesh Makkena, direttore globale dell'ingegneria delle soluzioni per i partner presso Snowflake
  • Starburst

    Starburst alimenta l'architettura dei dati di base necessaria per analisi, intelligenza artificiale e applicazioni di dati. Utilizza un ambiente ibrido di data lakehouse basato su Apache Iceberg per fornire accesso, collaborazione e governance su larga scala.

    Siamo entusiasti che Amazon S3 abbia introdotto il supporto integrato per Apache Iceberg con Tabelle S3, consentendo l'avanzamento dell'ecosistema Iceberg Open Data Lakehouse. Con i bucket tabulari S3, non vediamo l'ora di collaborare con AWS per aiutare i nostri clienti congiunti a portare la potenza di un Open Lakehouse, basato su Trino ottimizzato, un motore SQL MPP open source leader, in diversi casi d'uso di analisi e intelligenza artificiale nei dati di Amazon S3.

    Matt Fuller, Vicepresidente, Prodotti presso Starburst
  • StreamNative

    StreamNative è una piattaforma di messaggistica e streaming che potenzia l'intelligenza artificiale e l'analisi con un'importazione dei dati conveniente e ad alte prestazioni. Il motore StreamNative Ursa consente alle aziende di ridurre il costo totale di proprietà (TCO) del 90% grazie alla compatibilità con Kafka, un'architettura leaderless e uno storage lakehouse nativo, rendendo i dati pronti per l'intelligenza artificiale accessibili su larga scala.

    La nostra integrazione con Tabelle Amazon S3 rende i dati in tempo reale pronti per l'intelligenza artificiale più aperti e accessibili che mai. L'architettura leaderless di Ursa su S3 riduce già i costi di storage, mentre l'integrazione diretta con Tabelle S3 migliora ulteriormente le prestazioni e l'efficienza. In un mondo basato sull'intelligenza artificiale, la governance dei dati è fondamentale. In StreamNative, ci impegniamo ad aiutare le aziende a ridurre il TCO del 90%, permettendo di creare applicazioni basate sull'IA con dati governati e in tempo reale in modo semplice e conveniente.

    Sijie Guo, CEO e cofondatrice presso StreamNative