Amazon SageMaker Data Wrangler
Verileri makine öğrenimine hazırlamanın en hızlı ve en kolay yolu. Şimdi SageMaker Canvas'daSageMaker Data Wrangler nedir?
Amazon SageMaker Data Wrangler; tablo, resim ve metin verileri için veri hazırlama süresini haftalardan dakikalara indirir. SageMaker Data Wrangler ile görsel ve doğal bir dil arayüzü aracılığıyla veri hazırlamayı ve özellik mühendisliğini basitleştirebilirsiniz. Kod yazmadan SQL ve 300'den fazla yerleşik dönüştürme ile verileri hızla seçin, içe aktarın ve dönüştürün. Veri türleri arasındaki anormallikleri tespit etmek ve model performansını tahmin etmek için sezgisel veri kalitesi raporları oluşturun. Petabaytlarca veriyi işlemek için ölçeklendirin.
SageMaker Data Wrangler'ın Avantajları
Nasıl çalışır?
Nasıl çalışır?
Görüntü açıklamasını büyütün ve okuyun.Daha hızlı veri erişimi, seçimi ve sorgusu
SageMaker Data Wrangler ile S3, Athena, Redshift ve 50'den fazla üçüncü taraf kaynak gibi Amazon hizmetlerinden tablo, metin ve görüntü verilerine hızlı bir şekilde erişebilirsiniz. Görsel sorgu oluşturucu ile verileri seçebilir, SQL sorguları yazabilir veya verileri doğrudan CSV ve Parquet gibi çeşitli biçimlerde içe aktarabilirsiniz.
Veri öngörüleri oluşturun ve veri kalitesini anlayın
SageMaker Data Wrangler, veri kalitesini otomatik olarak doğrulayan (eksik değerler, yinelenen satırlar ve veri türleri gibi) ve verilerinizdeki anormalliklerin (aykırı veriler, sınıf dengesizliği ve veri sızıntısı gibi) tespit edilmesine yardımcı olan bir veri kalitesi ve öngörüleri raporu sunar. Veri kalitesini etkili bir şekilde doğruladıktan sonra, makine öğrenimi modeli eğitimi için veri kümelerini işlemek üzere etki alanı bilgisini hızlı bir şekilde uygulayabilirsiniz.
Verilerinizi görselleştirerek anlayın
SageMaker Data Wrangler histogramlar, dağılım grafikleri, özellik önemi ve korelasyonlar gibi sağlam yerleşik görselleştirme şablonları aracılığıyla verilerinizi anlamanızı sağlar. Veri türleri arasındaki anormallikleri tespit eden ve veri kalitesini iyileştirmek için öneriler sunan sezgisel veri kalitesi raporlarıyla veri keşfini hızlandırın.
Verileri daha verimli bir şekilde dönüştürün
SageMaker Data Wrangler kodlamasız tablo, zaman dizileri, metin ve görüntü verilerini hazırlamak için 300'den fazla önceden oluşturulmuş PySpark dönüşümü ve doğal bir dil arayüzü sunar. Metni vektörleştirme, tarih ve saat özelliğini oluşturma, kodlama, veri dengeleme veya görüntü büyütme gibi yaygın kullanım örneklerini kapsar. Ayrıca PySpark, SQL ve Pandas'ta özel dönüşümler oluşturabilir veya kod oluşturmak için doğal dil arabirimini kullanabilirsiniz. Yerleşik kod parçacıkları kitaplığı, özel dönüşümleri yazmayı kolaylaştırır.
Verilerinizin tahmin gücünü anlayın
SageMaker Data Wrangler, verilerinizin tahmin gücünü tahmin etmek için Hızlı Model analizi sağlar. Eğitim modellerinden önce veri kalitenizi doğrulamanızı sağlayacak tahmini model doğruluğu, özellik önemi ve bir karışıklık matrisi elde edersiniz.
Makine öğrenimi veri hazırlama iş akışlarını otomatikleştirin ve dağıtın
SageMaker Data Wrangler, PySpark'ı kodlamadan veya kümeleri döndürmeden petabaytlık veri hazırlamak için ölçeklendirmenizi sağlar. İşleme işlerini doğrudan kullanıcı arayüzünden başlatın veya verileri SageMaker Özellik Deposu'na aktararak veya SageMaker İşlem Hatları ile entegre ederek veri hazırlamayı makine öğrenimi iş akışlarına entegre edin. Veri hazırlama adımlarınızın programlı olarak çoğaltılması için veri akışlarını, Jupyter not defteri veya Python komut dosyası olarak da dışa aktarabilirsiniz.
Müşteriler
"INVISTA olarak, dönüşümü destekliyoruz ve dünyanın dört bir yanındaki müşterilerimizin faydalanabileceği ürünler ve teknolojiler geliştirmeye önem veriyoruz. Makine öğrenimini müşteri deneyimini iyileştirmenin bir yolu olarak görüyoruz. Ancak yüz milyonlarca satırı kapsayan veri kümeleriyle, verileri hazırlamamıza ve makine öğrenimi modellerini uygun şekilde ölçeklendirmemize, dağıtmamıza ve yönetmemize yardımcı olacak bir çözüme ihtiyacımız vardı. Amazon SageMaker Data Wrangler ile artık verilerimizi etkili bir şekilde seçebilir, temizleyebilir, keşfedebilir ve anlayabiliriz, bu da veri bilimi ekibimizi yüz milyonlarca satıra yayılan veri kümelerine zahmetsizce ölçeklenebilen özellik mühendisliği işlem hatları oluşturma konusunda güçlendirebilir. Amazon SageMaker Data Wrangler ile makine öğrenimi iş akışlarımızı daha hızlı çalıştırabiliyoruz."
Caleb Wilkinson, Eski Baş Veri Bilimcisi, INVISTA
"3M, makine öğrenimini kullanarak zımpara kâğıdı gibi denenip test edilmiş ürünleri iyileştiriyor ve sağlık hizmetleri de dâhil olmak üzere diğer birçok alanda inovasyonu destekliyor. Makine öğrenimini 3M'in diğer alanlarına da ölçeklemeyi düşünürken veri ve model miktarının her yıl ikiye katlanarak hızlıca büyüdüğünü görüyoruz. Ölçeklememize yardımcı olacağı için yeni SageMaker özellikleri konusunda heyecanlıyız. Amazon SageMaker Data Wrangler, model eğitimi için verileri hazırlamayı çok daha kolay hâle getiriyor ve Amazon SageMaker Özellik Deposu, aynı model özelliklerini tekrar tekrar oluşturma ihtiyacını ortadan kaldırıyor. Son olarak, Amazon SageMaker İşlem Hatları; veri hazırlama, model oluşturma ve model dağıtımını uçtan uca bir iş akışında otomatikleştirmemize yardımcı olarak modellerimizin pazara ulaşma hızını artıracak. Araştırmacılarımız, 3M'de bilimin yeni hızının avantajından yararlanmayı dört gözle bekliyor."
David Frazee, Teknik Faaliyetler Eski Direktörü, 3M Corporate Systems Research Lab
"Amazon SageMaker Data Wrangler, yeni ürünleri pazara ulaştırmak için gereken makine öğrenimi verilerini hazırlama sürecini hızlandıran zengin bir dönüşüm araçları koleksiyonuyla veri hazırlama ihtiyaçlarımızı gidererek işimizi yapmamıza yardımcı oluyor. Böylece müşterilerimizin ihtiyaçlarını aylar yerine günler içinde karşılayan ölçülebilir ve sürdürülebilir sonuçlar sunmamıza olanak tanıyan dağıtılmış modellerimizi ölçeklendirme hızımızdan müşterilerimiz de yararlanıyor."
Frank Farrall, Müdür, Yapay Zekâ Ekosistemleri ve Platformları Lideri, Deloitte
"AWS Premier Danışmanlık Hizmetleri Çözüm Ortağı olarak, mühendislik ekiplerimiz, AWS ile yakından çalışarak müşterilerimize operasyonlarının verimliliğini sürekli olarak iyileştirmede yardımcı olacak yenilikçi çözümler oluşturuyor. Makine öğrenimi, yenilikçi çözümlerimizin merkezinde yer alıyor ancak veri hazırlama iş akışımız karmaşık veri hazırlama teknikleri içerdiğinden bir üretim ortamında operasyonel hâle geçmesi için çok uzun süre gerekiyor. Amazon SageMaker Data Wrangler, veri bilimcilerimizin veri seçme, temizleme, keşfetme ve görselleştirme dâhil olmak üzere veri hazırlama iş akışının her adımını tamamlamasını sağlayarak veri hazırlama sürecimizi hızlandırmaya ve verilerimizi makine öğrenimi için kolayca hazırlamaya yardımcı oluyor. Amazon SageMaker Data Wrangler ile verilerimizi makine öğrenimi için daha hızlı hazırlayabiliyoruz."
Shigekazu Ohmoto, Kıdemli Genel Müdür, NRI Japonya
"Nüfus sağlığı yönetimi pazarındaki ayak izimiz daha fazla sağlık hizmeti ödeyici, sağlayıcı, eczane yardımı yöneticisi ve diğer sağlık hizmeti kuruluşlarıyla genişlemeye devam ettikçe talep verileri, kayıt verileri ve eczane verileri dâhil olmak üzere makine öğrenimi modellerimizi besleyen veri kaynaklarına yönelik uçtan uca süreçleri otomatik hâle getirmek için bir çözüme ihtiyacımız oldu. Amazon SageMaker Data Wrangler ile artık doğrulaması ve yeniden kullanımı daha kolay olan bir dizi iş akışı kullanarak verileri makine öğrenimi için toplama ve hazırlama süresini kısaltabiliyoruz. Bu da modellerimizin teslim süresini ve kalitesini büyük ölçüde iyileştirdi, veri bilimcilerimizin verimliliğini artırdı ve veri hazırlama süresini neredeyse %50 oranında azalttı. SageMaker Data Wrangler aynı zamanda eczane, teşhis kodları, acil ziyaretleri, yatan hasta ve hem demografik hem de diğer sosyal belirleyici faktörler dâhil olmak üzere binlerce özellikle veri reyonları oluşturmamıza olanak sağladığından müşterilerimiz için tüm uçtan uca süreci hızlandırarak birçok makine öğrenimi yinelemesinden kurtulmamıza ve GPU süresini büyük ölçüde azaltmamıza yardımcı oldu. SageMaker Data Wrangler sayesinde eğitim veri kümeleri oluşturmak, makine öğrenimi modellerini çalıştırmadan önce veri kümeleriyle ilgili veri öngörüleri ortaya çıkarmak ve uygun ölçekte çıkarım/tahmin için gerçek dünyadan veriler hazırlamak üzere verilerimizi olağanüstü bir verimlilikle dönüştürebiliyoruz."
Lucas Merrow, CEO - Equilibrium Point IoT