Inserito il: Nov 15, 2019
Amazon EMR versione 5.28.0 supporta ora Apache Hudi (Incubating). I tecnici dei dati che utilizzano Amazon EMR per lo sviluppo della pipeline dei dati e l’elaborazione dei dati possono ora utilizzare Apache Hudi per semplificare la gestione incrementale dei dati e i casi d’uso di privacy dei dati che richiedono operazioni di inserimento, aggiornamento ed eliminazione a livello di record. Apache Hudi consente ai data lake basati su Amazon S3 di essere conformi alla legislazione sulla privacy dei dati, di consumare flussi di dati in tempo reale, di modificare i log di acquisizione dei dati, di reistituire i dati con arrivo ritardato e di rilevare cronologia e rollback. Apache Hudi è open source e supporta l’archiviazione dei dati su Amazon S3 in formati open source a fornitore neutro come Apache Parquet e Apache Avro.
Apache Hudi è un framework di gestione dei dati open-source utilizzato per semplificare l’elaborazione incrementale dei dati e lo sviluppo della pipeline dei dati. Apache Hudi ti consente di gestire i dati a livello di record in Amazon S3 per semplificare l’acquisizione di Change Data Capture (CDC) e di dati di streaming e fornisce un framework per gestire i casi d’uso di privacy dei dati che richiedono aggiornamenti ed eliminazioni a livello di record. I set di dati gestiti da Apache Hudi sono archiviati in S3 tramite formati di storage aperti e integrazioni con Presto, Apache Hive, Apache Spark, mentre AWS Glue Data Catalog assicura l’accesso in tempo quasi reale ai dati aggiornati mediante strumenti familiari.
Apache Hudi gode del supporto nativo in Amazon EMR e viene automaticamente installato quando si scelgono Apache Spark, Hive o Presto per distribuire i cluster EMR. L’uso di Apache Hudi consente di creare set di dati che sono ottimizzati per casi d’uso di lettura o scrittura intensiva e Apache Hudi gestisce i dati soggiacenti archiviati in S3 utilizzando Apache Parquet e Apache Avro per lo storage di dati.
Amazon EMR versione 5.28.0 con Apache Hudi è oggi disponibile in Stati Uniti orientali (Virginia settentrionale e Ohio), Stati Uniti occidentali (Oregon), Sud America (São Paulo), Europa (Irlanda e Stoccolma), AWS GovCloud (US-East e US-West), AWS (Beijing) con gestione di Sinnet, altre regioni verranno aggiunte nelle prossime settimane.
Puoi essere sempre informato sulle nuove versioni di Amazon EMR iscrivendoti ai feed delle note di rilascio della versione EMR. Usa l’icona in cima alla guida EMR Release Guide per collegare l’URL dei feed direttamente al tuo lettore di feed preferito.
Per dare un’occhiata più approfondita all’uso di Apache Hudi con EMR, partecipa alla sessione re:Invent e al workshop.
Link aggiuntivi
Blog AWS News: New - Insert, Update, Delete Data on S3 with Amazon EMR and Apache Hudi