Amazon SageMaker Veri İşleme

Her ölçekte analiz ve yapay zeka için verileri analiz edin, hazırlayın ve entegre edin

Neden SageMaker Veri İşleme?

Amazon Athena, Amazon EMR, AWS Glue ve Apache Airflow İçin Amazon Yönetilen İş Akışları'nın (Amazon MWAA) veri işleme özellikleriyle verilerinizi hazırlayın, entegre edin ve düzenleyin. Yüzlerce veri kaynağına hızlı ve kolay bağlantı ile verilerinizi, nerede olursa olsunlar, işleyin ve entegre edin.

Apache Spark, Trino ve Apache Flink gibi açık kaynaklı veri işleme çerçevelerini kullanın. Altyapıyı yönetmeden Trino ile verileri uygun ölçekte analiz edin, Apache Flink ve Apache Spark ile sorunsuz bir şekilde gerçek zamanlı analiz oluşturun.

Veri kalitesi sağlama, hassas verileri tanımlama ve köken takibi süreçlerini otomatikleştirerek ve Amazon SageMaker Lakehouse ile yerel entegrasyon yoluyla ayrıntılı erişim denetimleri uygulayarak verilerinizin doğruluğunu ve güvenliğini güvence altına alın.

Avantajlar

Amazon SageMaker Veri İşleme; veri ve akış işleme çerçevelerine, açık kaynaklı dağıtılmış SQL sorgu altyapılarına ve not defterleri, sorgu düzenleyicileri ve görsel ayıklama, dönüştürme ve yükleme (ETL) gibi en popüler araçlara kapsamlı erişim imkanı sağlar.

Verilerinizi herhangi bir ölçekte hazırlamak ve entegre etmek için Apache Spark gibi en popüler çerçevelere erişebilirsiniz. Apache Flink ve Apache Spark Streaming üzerinden akış işleme ile gerçek zamanlı iş ihtiyaçlarına yanıt verin ve Trino gibi önde gelen açık kaynaklı SQL çerçeveleriyle verileri analiz edin. Amazon MWAA yerel entegrasyonuyla altyapıyı yönetmek zorunda kalmadan iş akışı düzenlemesini basitleştirin.

SageMaker Veri İşleme'nin SageMaker Lakehouse ile yerel olarak entegrasyon kurması; analiz, geçici sorgulama, makine öğrenimi (ML) ve üretken yapay zeka dahil olmak üzere tüm kullanım örneklerinizde işleme ve entegrasyon süreçlerini verilerinizin tek bir kopyasıyla gerçekleştirebilmenize olanak tanır.

SageMaker Lakehouse, Amazon Simple Storage Service (Amazon S3) veri gölleri ile Amazon Redshift veri ambarları arasında verileri bir araya getirerek verilerinize birleşik erişim imkanı sağlar. Yüzlerce bağlayıcının ve sıfır ETL entegrasyonunun yanı sıra federe veri kaynakları sayesinde Lakehouse'ta birleştirilmiş verileri keşfedebilir ve analiz edebilir, böylece işletmeniz eksiksiz bir görünümünü elde edebilirsiniz. SageMaker Lakehouse, belirli depolama biçimi veya sorgu altyapısı seçenekleriyle kısıtlanmadan, mevcut veri mimarinizle kullanıma hazır şekilde çalışır.

Apache Iceberg tabloları üzerinden hızlı sorgu performansıyla verimliliği artırın. Apache Spark, Apache Airflow, Apache Flink, Trino ve daha fazlasının yüksek performanslı ve açık kaynaklı API uyumlu sürümleri sayesinde öngörüleri geleneksel açık kaynaklı sistemlere kıyasla 2 kata daha hızlı elde edin.

SageMaker Veri İşleme, işlem kapasitesini veya açık kaynak uygulamalarını yönetmek zorunda kalmadan verilerinizi dönüştürmeye ve analiz etmeye odaklanmanızı sağlayarak zamandan tasarruf etmenizi ve maliyetleri düşürmenizi sağlar. Kapasitenizi Amazon Elastic Compute Cloud (Amazon EC2) üzerinde Amazon EMR veya Amazon Esnek Kubernetes Hizmeti (Amazon EKS) üzerinde Amazon EMR ile otomatik olarak tedarik edebilirsiniz. Ölçeklendirme kuralları, performansı ve çalışma sürelerini optimize etmek için işlem talebinizdeki değişiklikleri yönetir.

Amazon SageMaker Kataloğu ile entegrasyon kurarak veri ve yapay zeka modelleri için otomatik veri kalitesi raporlaması, hassas verilerin algılanması ve köken takibi ile güven ve şeffaflık kazanın. Otomatik ölçüm ve izlemenin yanında veri kalitesi kuralları önerileriyle verilerinizin kalitesine olan güveninizi artırın.

SageMaker Lakehouse'ta veri kümeleri üzerinde tanımlanan ayrıntılı erişim denetimlerini benimseyerek ve uygulayarak verilerinizi güvenli bir şekilde işleyin ve analiz edin ve bu sayede izinleri sadece bir kez tanımlayıp verilerinizi kuruluşunuzdaki yetkili kullanıcıların erişimine açın.

AWS hizmetleri

Basitleştirilmiş veri entegrasyonu

AWS Glue, birden çok kaynaktan veri keşfi, hazırlama ve entegrasyonu basitleştiren sunucusuz veri entegrasyonu sağlar. Çeşitli veri kaynaklarına bağlanın, verilerinizi merkezi bir veri kataloğunda yönetin ve göl evinize veri yüklemek için ETL işlem hatlarını görsel olarak oluşturun, çalıştırın ve izleyin. AWS Glue istek üzerine otomatik olarak ölçeklenir. Böylece altyapı yönetmenize gerek kalmadan verilerinizden öngörüler elde etmeye odaklanabilirsiniz.

Apache Spark, Apache Hive, Trino ve diğer iş yüklerini çalıştırın ve ölçeklendirin

Amazon EMR; Apache Spark, Apache Airflow, Apache Flink ve Trino gibi veri işleme iş yüklerini çalıştırmayı daha kolay ve daha uygun maliyetli hale getirir. Veri işleme işlem hatları oluşturup çalıştırın ve şirket içi çözümlere kıyasla otomatik olarak daha hızlı ölçeklendirin.

Maliyetleri takip edin

Amazon Athena, verilerinizi herhangi bir ölçekte analiz etmek için basitleştirilmiş ve esnek bir yol sunar. Athena, standart SQL kullanarak Amazon S3'te veri analizini basitleştiren etkileşimli bir sorgu hizmetidir. Athena, sunucusuzdur. Dolayısıyla, kurulacak veya yönetilecek bir altyapı yoktur ve çalıştırdığınız sorgulara veya sorgularınızın ihtiyaç duyduğu işlem kaynaklarına göre ödeme yapmayı seçebilirsiniz. Günlükleri işlemek, veri analizi gerçekleştirmek ve etkileşimli sorgular çalıştırmak için Athena'yı kullanın. Athena, sorguları paralel olarak yürüterek otomatik olarak ölçeklenir. Bu sayede, büyük veri kümeleri ve karmaşık sorgularla bile hızlı sonuçlar elde edilebilir.

Apache Airflow için güvenlik odaklı ve yüksek oranda erişilebilir, yönetilen iş akışı düzenlemesi

Amazon MWAA, iş akışlarınızı düzenlemek için aşina olduğunuz mevcut Apache Airflow platformunuzu kullanmanıza olanak tanıyan, Apache Airflow için yönetilen bir hizmettir. Temel altyapıyı yönetmenin operasyonel yükü olmadan geliştirilmiş ölçeklenebilirlik, erişilebilirlik ve güvenlik elde edersiniz. Amazon MWAA, Python dilinde yazılmış yönlendirilmiş döngüsel olmayan grafikleri (DAG'ler) kullanarak iş akışlarınızı düzenler. Amazon MWAA'ya DAG'lerinizin, eklentilerinizin ve Python gereksinimlerinizin bulunduğu bir S3 bucket'ı sağlarsınız. Temel altyapıyı yönetmeyle ilgili operasyonel yük olmadan Apache Airflow'u uygun ölçekte dağıtın.

Kullanım örnekleri

AWS'deki, şirket içindeki ve diğer bulutlardaki birleşik verileri hızla tespit edip bunlara erişin ve ardından sorgulama ve dönüştürme için anında kullanılabilir hale getirin.

Apache Spark, Apache Flink ve Trino gibi çerçeveleri ve toplu iş, mikro toplu iş ve akış gibi çeşitli iş yüklerini kullanarak verileri işleyin.

Gizli düzenleri, korelasyonları, pazar eğilimlerini ve müşteri tercihlerini ortaya çıkarmak için istatistiksel algoritmalar ve tahmine dayalı modeller kullanarak büyük ölçekli veri işleme ve olasılık analizi gerçekleştirin.