Apache Spark in Amazon EMR
Perché Apache Spark su EMR?
Amazon EMR è l'ambiente migliore per eseguire Apache Spark. È possibile creare in modo rapido e veloce cluster Spark tramite la Console di gestione AWS, l'interfaccia a riga di comando o l'API di Amazon EMR. È anche possibile sfruttare altre funzionalità di Amazon EMR, ad esempio le rapide connessioni di Amazon S3 tramite il file system di Amazon EMR (EMRFS), l'integrazione con il marketplace di istanze spot di Amazon EC2 e il Catalogo dati AWS Glue, nonché la funzione di scalabilità gestita da EMR per aggiungere o rimuovere istanze dal cluster. AWS Lake Formation offre un controllo granulare degli accessi, mentre l'integrazione con AWS Step Functions aiuta a orchestrare le pipeline di dati. EMR Studio (anteprima) è un ambiente di sviluppo integrato (IDE) che semplifica lo sviluppo, la visualizzazione e il debug delle applicazioni di data engineering e data science scritte in R, Python, Scala e PySpark per i data scientist e gli ingegneri dei dati. EMR Studio fornisce notebook Jupyter completamente gestiti e strumenti come Spark UI e YARN Timeline Service per semplificare il debug. Notebook EMR semplifica la sperimentazione e la creazione di applicazioni con Spark. Inoltre, è possibile utilizzare Apache Zeppelin per creare notebook interattivi e collaborativi per la visualizzazione dei dati tramite Spark.
Ottieni ulteriori informazioni su Apache Spark in questa pagina
Caratteristiche e vantaggi
Casi d'uso
Storie di successo
-
Yelp
Il team di Yelp che si occupa del pubblico delle inserzioni crea modelli predittivi per determinare le probabilità che un utente interagisca con un'inserzione. Utilizzando Apache Spark in Amazon EMR per elaborare grandi quantità di dati e alimentare modelli di apprendimento automatico, Yelp ha aumentato i guadagni e la percentuale di clic delle proprie inserzioni.
-
The Washington Post
Il Washington post usa Apache Spark in Amazon EMR per creare modelli sui quali si basa il motore di raccomandazione del sito Web e migliorare il coinvolgimento e la soddisfazione dei lettori. Il quotidiano sfrutta la connettività di Amazon EMR con Amazon S3 per aggiornare i modelli quasi in tempo reale.
-
Krux
Krux impiega diversi carichi di lavoro di machine learning e generiche attività di elaborazione tramite Apache Spark per la propria piattaforma di gestione dei dati. Per risparmiare sui costi, Krux usa cluster Amazon EMR temporanei con istanze Spot di Amazon EC2, nonché Amazon S3 con EMRFS come layer dei dati per Apache Spark.
-
GumGum
GumGum, una piattaforma pubblicitaria di annunci illustrati e pop-up, usa Spark in Amazon EMR per eseguire previsioni di inventario, elaborare log di clickstream e completare analisi ad hoc di dati non strutturati in Amazon S3. Il miglioramento alle prestazioni garantito da Spark ha consentito a GumGum di risparmiare tempo e denaro nei propri flussi di lavoro.
-
Hearst Corporation
Hearst Corporation è una grande società che opera nel settore multimediale e dell'informazione con oltre 200 siti Web di proprietà. Grazie ad Apache Spark Streaming in Amazon EMR, la redazione di Hearst è in grado di monitorare in tempo reale la popolarità dei singoli articoli.
-
CrowdStrike
CrowdStrike fornisce protezione dagli attacchi informatici per endpoint. Utilizza Amazon EMR con Spark per elaborare centinaia di terabyte di dati di eventi e riassumerli in descrizioni comportamentali di alto livello sugli host. A partire dai dati, CrowdStrike è in grado di analizzare gli eventi che si verificano e identificare la presenza di attività pericolose.