Panoramica
Analisi scalabili con Apache Druid su AWS è una soluzione AWS che aiuta a configurare, utilizzare e gestire in modo rapido ed efficiente un ambiente di hosting conveniente, altamente disponibile, resiliente e tollerante ai guasti per Apache Druid su AWS. Con questa soluzione è possibile utilizzare l'intera suite di funzionalità e capacità di Apache Druid, ottimizzando al contempo l'elasticità, la scalabilità e la flessibilità dei prezzi delle offerte di calcolo e storage su AWS.
Vantaggi
Ottieni la flessibilità necessaria per personalizzare le installazioni utilizzando il motore di calcolo e la soluzione di archiviazione AWS di tua scelta tra una varietà di opzioni di istanze e serverless.
Specifica un provider di identità per autenticare gli utenti tramite il protocollo OpenID Connect, utilizza il supporto predefinito della soluzione per Lightweight Directory Access Protocol (LDAP) o configura le impostazioni di autenticazione di base come nome utente e password.
Usa le voci di log, emesse da Druid, in un gruppo di log centralizzato di Amazon CloudWatch per facilitare le attività di debug e risoluzione dei problemi, imposta una dashboard di monitoraggio per monitorare lo stato
del cluster Druid e configura gli allarmi in base alle preferenze del cliente.
Installa e configura questa soluzione con il supporto nativo per il caricamento delle estensioni Druid, incluse le estensioni di base e della community.
Dettagli tecnici
È possibile implementare automaticamente questa architettura utilizzando la guida all'implementazione.
Fase 1
Web Application Firewall AWS (AWS WAF) per proteggere la console web di Druid e gli endpoint API di Druid dagli exploit web e dai bot più comuni che possono compromettere la disponibilità, la sicurezza o consumare risorse eccessive. AWS WAF viene fornito e implementato solo per cluster connessi a Internet.
Fase 2
Un server Linux con protezione avanzata (host bastione) per gestire l'accesso ai server Druid in esecuzione in una rete privata separata da una rete esterna. Può anche essere usato per accedere alla console web di Druid tramite il tunneling SSH in cui viene implementato unApplication Load Balancer (ALB) privato.
Fase 3
Un ALB funge da unico punto di contatto per i client. Il sistema di bilanciamento del carico distribuisce il traffico delle applicazioni in entrata su più server di query in più zone di disponibilità.
Fase 4
La sottorete privata è costituita da quanto segue:
- Gruppo con dimensionamento automatico di master Druid: un gruppo con dimensionamento automatico contiene una raccolta di server master Druid. Un server master gestisce l'importazione e la disponibilità dei dati ed è responsabile dell'avvio di nuovi processi di importazione e del coordinamento della disponibilità dei dati sui "server di dati". All'interno di un server master, la funzionalità è suddivisa tra due processi: Coordinator e Overlord.
- Gruppo con dimensionamento automatico di dati Druid: un gruppo con dimensionamento automatico contiene una raccolta di server di dati Druid. Un server di dati esegue processi di importazione e archivia i dati interrogabili. All'interno di un server di dati, la funzionalità è suddivisa tra due processi: Historical e MiddleManager.
- Gruppo con dimensionamento automatico di query Druid: un gruppo con dimensionamento automatico contiene una raccolta di server di query Druid. Un server di query fornisce gli endpoint con cui gli utenti e le applicazioni client interagiscono, indirizzando le query ai server di dati o ad altri server di query. All'interno di un server di query, la funzionalità è suddivisa tra due processi: Broker e Router.
- Gruppo con dimensionamento automatico di server ZooKeeper: un gruppo con dimensionamento automatico contiene una raccolta di server ZooKeeper. Apache Druid utilizza Apache ZooKeeper (ZK) per la gestione dello stato corrente del cluster.
Fase 5
Un bucket Amazon Simple Storage Service (S3) fornisce un'archiviazione profonda per il cluster Apache Druid. L'archiviazione profonda è la posizione in cui vengono archiviati i segmenti.
Fase 6
AWS Secrets Manager archivia i segreti utilizzati da Apache Druid, tra cui il segreto Amazon Relational Database Service (RDS) e il segreto dell'utente amministratore. Archivia inoltre le credenziali per l'account di sistema che i componenti Druid utilizzano per autenticarsi tra loro.
Fase 7
Amazon CloudWatch supporta log, metriche e dashboard.
Fase 8
Un database Amazon Aurora PostgreSQL fornisce l'archiviazione dei metadati per il cluster Apache Druid. Druid utilizza l'archivio dei metadati per ospitare solo i metadati sul sistema e non memorizza i dati effettivi.
Fase 9
Il sistema di notifica, basato su Amazon Simple Notification Service (Amazon SNS), fornisce avvisi o allarmi tempestivamente quando si verificano eventi di sistema. In questo modo si garantisce una consapevolezza e un'azione immediata in caso di necessità.
- Data di pubblicazione