Veri Hazırlama Nedir?
Veri hazırlama, ham verilerin daha fazla işleme ve analize uygun hale gelebilmesi için hazırlanma sürecidir. Temel adımlar arasında ham verilerin toplanması, temizlenmesi ve makine öğrenimi (ML) algoritmalarına uygun bir formda etiketlenmesi ve ardından incelenip görselleştirilmesi yer alır. Veri hazırlama, bir ML projesi için harcanan zamanın %80'i kadar sürebilir. Özel veri hazırlama araçları kullanmak, bu süreci optimize etmek için önemlidir.
ML ile veri hazırlama arasındaki bağlantı nedir?
Veriler, daha önce hiç olmadığı gibi kurumlar arasında dolaşır; yapılandırılmış ve yapılandırılmamış veriler olarak (resimler, belgeler, jeo-uzamsal veriler ve dahası) akıllı telefonlardan akılı şehirlere kadar her yerden gelir. Yapılandırılmamış veriler şu an mevcut verilerin %80’ini oluşturur. ML, yalnızca yapılandırılmış verileri analiz etmez, aynı zamanda yapılandırılmamış verilerdeki desenleri de keşfeder. ML, bir bilgisayarın verileri yorumlamayı ve bu verilere bağlı olarak karar vermeyi ve önerilerde bulunmayı öğrenmesi sürecidir. Öğrenme süreci sırasında ve daha sonra tahminlerde bulunmak için kullanıldığında yanlış, yanlı veya eksik veriler hatalı tahminlerle sonuçlanabilir.
Veri hazırlama ML için neden önemlidir?
Veriler ML’yi besler. İşletmenize yeniden şekil vermek için bu verilerden yararlanmak zorlu bir işlem olsa da bugün ve gelecekte var olabilmek için zorunludur. En bilgili olan hayatta kalır; daha iyi ve daha bilinçli kararlar alabilmek için verilerini işlerine dâhil edenler beklenmedik durumlara daha hızlı karşılık verebilir ve yeni fırsatları yakalar. Bu önemli ancak zahmetli süreç doğru ML modelleri ve analizleri oluşturabilmenin ön koşuludur; öte yandan bir ML projesinin en zaman alan kısmıdır. Zamana yapılan bu yatırımı en aza indirmek için veri bilimcileri veri hazırlama sürecinin çeşitli yollarla otomatikleşmesine yardımcı olan araçlar kullanabilir.
Verilerinizi nasıl hazırlıyorsunuz?
Veri hazırlama; doğru verileri toplamakla başlayan ve temizleme, etiketleme, doğrulama ve görselleştirme ile devam eden bir dizi adımdan oluşur.
Veri toplama
Veri toplama, ML için ihtiyacınız olan tüm verileri birleştirme sürecidir. Veriler dizüstü bilgisayarlar, veri ambarları, bulut, uygulamalar ve cihazlar dâhil birçok veri kaynağında barındığından veri toplama işlemi zahmetli olabilir. Bu farklı veri kaynaklarına bağlanmaya yönelik yollar bulmak zor olabilir. Veri hacimleri de katlanarak arttığından arama yapmak için birçok veri bulunur. Ek olarak veriler kaynağa bağlı olarak çok farklı formatlara ve türlere sahiptir. Örneğin, video verilerinin ve tablo verilerinin birlikte kullanılması kolay değildir.
Verileri temizleme
Veri kalitesinin sağlanmasına yönelik bir adım olan verileri temizleme işlemi, hataları düzeltir ve eksik verileri doldurur. Temiz veriler elde ettikten sonra bu verileri tutarlı ve okunabilir bir formata dönüştürmeniz gerekir. Bu süreç tarih ve para birimi gibi alan formatlarının değiştirilmesi, adlandırma kuralının düzeltilmesi ve tutarlı olması için değerlerin ve ölçü birimlerinin ayarlanması gibi işlemler içerebilir.
Etiket verileri
Veri etiketleme bir ML modelinin öğrenebileceği bir bağlam sağlamak için ham verileri (görüntüler, metin dosyaları, videolar gibi) tanımlama ve bu verilere bir veya daha fazla anlamlı ve bilgilendirici etiket ekleme işlemidir. Örneğin, etiketler bir fotoğrafta kuş mu yoksa araba mı olduğunu, bir ses kaydında hangi kelimelerin söylendiğini veya bir röntgen filminde bir düzensizliğin fark edilip edilmediğini belirtebilir. Veri etiketleme; görüntü işleme, doğal dil işleme ve konuşma tanıma da dâhil çeşitli kullanımlar için gereklidir.
Doğrulama ve görselleştirme
Veriler temizlendikten ve etiketlendikten sonra ML ekipleri, doğru ve ML için hazır olduğundan emin olmak için verileri sıklıkla inceler. Çubuk grafikler, serpme diyagramları, kutu grafikleri, çizelgeler ve sütun grafikler gibi görselleştirmeler, verilerin doğru olduğunu doğrulamak için faydalı araçlardır. Ayrıca görselleştirmeler, veri bilimi ekiplerinin keşif amaçlı veri analizini tamamlamasına yardımcı olur. Bu süreç; desenleri keşfetmek, anomalileri tespit etmek, hipotezleri test etmek veya tahminleri kontrol etmek için görselleştirmeler kullanır. Keşif amaçlı veri analizi biçimsel modelleme gerektirmez; onun yerine veri bilimi ekipleri, verileri deşifre etmek için görselleştirmeler kullanabilir.
AWS nasıl yardımcı olabilir?
Amazon SageMaker veri hazırlama araçları, hem yapılandırılmış hem de yapılandırılmamış verilerden öngörü kazanmaları konusunda kuruluşlara yardımcı olur. Örneğin, Amazon SageMaker Data Wrangler'ı kod gerektirmeyen bir görsel arabirim aracılığıyla yerleşik veri görselleştirmeleriyle yapılandırılmış veri hazırlamayı basitleştirmek için kullanabilirsiniz. SageMaker Data Wrangler, hiçbir kod yazmanıza gerek kalmadan özellikleri standartlaştırabilmeniz, dönüştürebilmeniz ve birleştirebilmeniz için yerleşik 300 veri dönüşümü içerir. Tercih ederseniz özel dönüşümlerinizi Python veya Apache Spark’a da getirebilirsiniz. Yapılandırılmamış veriler için büyük, yüksek kalitede, etiketli veri kümelerine ihtiyacınız vardır. Amazon SageMaker Ground Truth Plus'ı kullanarak etiketleme uygulamaları oluşturmak veya etiketleme iş gücünü kendi başınıza yönetmek zorunda kalmadan yüksek kalitede ML eğitimi veri kümeleri oluşturabilir ve veri etiketleme maliyetlerini %40'a kadar düşürebilirsiniz.
Verileri bir not defteriyle hazırlamayı tercih eden analistler ve işletme kullanıcıları için, birkaç tıklamayla Amazon SageMaker Stüdyo not defterlerinizden Amazon EMR üzerinde çalışan Spark veri işleme ortamlarını görsel olarak inceleyebilir, keşfedebilir ve bunlara bağlanabilirsiniz. Bağlandıktan sonra verileri etkileşimli olarak sorgulayabilir, keşfedebilir ve görselleştirebilir, ayrıca eksiksiz veri hazırlama ve ML iş akışları oluşturmak için seçtiğiniz dili (SQL, Python veya Scala) kullanarak Spark işlerini çalıştırabilirsiniz.