Hadoop nedir?
Apache Hadoop, boyutları gigabayt ile petabayt arasında değişen büyük verilerin etkili bir şekilde depolanıp işlenmesi amaçlı kullanılan bir açık kaynaklı çerçevedir. Hadoop, verilerin depolanıp işlenmesi için tek bir büyük bilgisayar kullanmak yerine birden fazla bilgisayarı küme hâline getirerek çok büyük veri kümelerini paralel bir biçimde daha hızlı analiz etme olanağı tanır.
Hadoop'un dört ana modülü nelerdir?
Hadoop dört ana modülden oluşur:
- Hadoop Dağıtılmış Dosya Sistemi (HDFS): Standart veya düşük seviyedeki donanım üzerinde çalışan dağıtılmış bir dosya sistemi. HDFS, yüksek hata toleransı ve büyük veri kümeleri için yerel desteğe ek olarak geleneksel dosya sistemlerinden daha iyi veri aktarımı sağlar.
- Yet Another Resource Negociator (YARN): Hem küme düğümlerini hem de kaynak kullanımını yönetir ve izler. İşleri ve görevleri planlar.
- MapReduce: Programların veriler üzerinde paralel hesaplama yapmasına yardımcı olan bir çerçeve. Eşleme görevi, girdi verilerini alır ve anahtar değer çiftlerinde hesaplanabilen bir veri kümesine dönüştürür. Eşleme görevinin çıktısı, çıktıyı toplamak ve istenen sonucu sağlamak için görevleri azaltmak suretiyle tüketilir.
- Hadoop Common: Tüm modüllerde kullanılabilen ortak Java kitaplıkları sağlar.
Hadoop nasıl çalışır?
Hadoop, hem küme sunucularındaki tüm depolama ve işleme kapasitesini kullanmayı hem de büyük miktarda veride dağıtılmış işlemler yürütmeyi kolaylaştırır. Hadoop, diğer hizmetlerin ve uygulamaların oluşturulabileceği yapı taşlarını sağlar.
Çeşitli biçimlerde veri toplayan uygulamalar, NameNode'a bağlanmak için bir API işlemi kullanarak verileri Hadoop kümesine yerleştirebilir. NameNode, DataNode'lar arasında çoğaltılan her dosya için dosya dizini yapısını ve "parçaların" yerleşimini izler. Verileri sorgulamak için bir iş çalıştırmak üzere, DataNode'lar arasında yayılmış HDFS'deki verilerde çalışan birçok eşleme ve azaltma görevinden oluşan bir MapReduce işi sağlayın. Eşleme görevleri, sağlanan girdi dosyalarındaki her düğümde çalışırken, indirgeyiciler de nihai çıktıyı toplamak ve düzenlemek için çalışır.
Hadoop ekosistemi nasıl gelişti?
Hadoop ekosistemi, genişletilebilirliği sayesinde yıllar içinde önemli ölçüde büyüdü. Günümüzde Hadoop ekosistemi, büyük verilerin toplanmasına, depolanmasına, işlenmesine, analiz edilmesine ve yönetilmesine yardımcı olacak birçok araç ve uygulama içermektedir. En popüler uygulamalardan bazıları şunlardır:
- Spark: Genellikle büyük veri iş yükleri için kullanılan açık kaynaklı, dağıtılmış bir işleme sistemi. Apache Spark hızlı performans için bellek içi önbellek ve optimize edilmiş yürütme özelliklerini kullanır ve genel toplu işleme, akış analizi, makine öğrenimi, grafik veritabanları ve anlık sorgular için destek sunar.
- Presto : Verilerin düşük gecikmeli, geçici analizi için optimize edilmiş açık kaynaklı, dağıtılmış bir SQL sorgu altyapısı. Karmaşık sorgular, toplamalar, birleştirmeler ve pencere işlevleri dahil olmak üzere ANSI SQL standardını destekler. Presto, Hadoop Dağıtılmış Dosya Sistemi (HDFS) ve Amazon S3 dahil olmak üzere birden fazla veri kaynağından gelen verileri işleyebilir.
- Hive: Kullanıcıların bir SQL arabirimiyle Hadoop MapReduce'u kullanmasına olanak tanıyarak dağıtılmış ve hata toleranslı veri ambarı kullanımına ek olarak geniş ölçekte analizleri mümkün kılar.
- HBase: Amazon S3 (EMRFS kullanarak) veya Hadoop Dağıtılmış Dosya Sistemi (HDFS) üzerinde çalışan açık kaynaklı, ilişkisel olmayan, sürümlü bir veritabanı. HBase, milyarlarca satır ve milyonlarca sütun içeren tablolar için rastgele, sıkı bir şekilde tutarlı, gerçek zamanlı erişim için oluşturulmuş, çok büyük oranda ölçeklenebilir, dağıtılmış bir büyük veri deposudur.
- Zeppelin: Etkileşimli veri keşfine imkan sunan etkileşimli bir not defteri.
AWS, Hadoop gereksinimlerinizi nasıl destekleyebilir?
Amazon EMR, tam olarak özelleştirilebilir kümelerde Apache Hadoop, Spark, HBase ve Presto gibi büyük veri işleme çerçevelerinin en son sürümlerini kullanarak büyük veri kümelerini işlemenize ve analiz etmenize olanak tanıyan, yönetilen bir hizmettir.
- Kullanım kolaylığı: Dakikalar içinde bir Amazon EMR kümesi başlatabilirsiniz. Düğüm tedarik etme, küme kurulumu, Hadoop yapılandırması veya küme ayarlama konusunda endişelenmeniz gerekmez.
- Düşük maliyet: Amazon EMR fiyatlandırması basit ve öngörülebilirdir: Kullandığınız her bulut sunucusu saati için saatlik ücret ödersiniz ve daha fazla tasarruf için Spot Bulut Sunucularından yararlanabilirsiniz.
- Esnek: Amazon EMR ile dilediğiniz ölçekte veri işlemek için bir, yüzlerce veya binlerce işlem bulut sunucusu tedarik edebilirsiniz.
- Geçici: Amazon S3'te kalıcı olarak depolanan HDFS verilerine dayalı kümeleri istek üzerine çalıştırmak için EMRFS'yi kullanabilirsiniz. İşler bittiğinde bir kümeyi kapatabilir ve verileri Amazon S3'e kaydedebilirsiniz. Yalnızca kümenin çalıştığı işlem süresi için ödeme yaparsınız.
- Güvenli: Amazon EMR, AWS hizmetlerinin tüm ortak güvenlik özelliklerini kullanır:
- İzinleri yönetmek için Kimlik ve Erişim Yönetimi (IAM) rolleri ve politikaları.
- Verilerinizi korumanıza ve HIPAA gibi uygunluk standartlarını karşılamanıza yardımcı olmak için aktarım ve bekleme sırasında şifreleme.
- Küme düğümlerinize gelen ve giden ağ trafiğini denetlemek için güvenlik grupları.
- AWS CloudTrail: Güvenlik analizi, kaynak değişikliği izleme ve uygunluk denetimi sağlamak için hesabınızda yapılan tüm Amazon EMR PI çağrılarını denetleyin.
Hemen bir hesap oluşturarak AWS'de Hadoop'u kullanmaya başlayın.