Что такое подготовка данных?
Подготовка данных – это процесс подготовки необработанных данных для их дальнейшей обработки и анализа. Основные этапы этого процесса включают сбор, очистку и маркировку необработанных данных в форме, подходящей для алгоритмов машинного обучения, а также последующее изучение и визуализацию данных. Подготовка данных может занимать до 80 % времени, затрачиваемого на проект машинного обучения. Чтобы оптимизировать этот процесс, важно использовать инструменты, специально разработанные для подготовки данных.
Что объединяет машинное обучение и подготовку данных?
Структурированные и неструктурированные данные (изображения, документы, геопространственная информация и многое другое) поступают в организации со всех сторон, начиная со смартфонов и заканчивая умными городами, чего не было раньше. Неструктурированные данные составляют сегодня 80 % данных. Машинный интеллект может не только проводить анализ структурированных данных, но и обнаруживать закономерности в неструктурированных. Машинное обучение – это процесс, в котором компьютер учится интерпретировать данные и принимать решения и создавать рекомендации на основе этих данных. В процессе обучения – и позже, когда данные используются для прогнозирования – неправильные, необъективные или неполные данные могут привести к неточным прогнозам.
Почему подготовка данных важна для машинного обучения?
Данные используются для машинного обучения. Использование этих данных для обновления вашего бизнеса, хотя и является сложной задачей, однако оно крайне важно, чтобы идти в ногу со временем. Выживают самые информированные, а те, кто может использовать свои данные для принятия лучших, более обоснованных решений, быстрее реагируют на неожиданности и открывают новые возможности. Этот важный, но утомительный процесс является необходимым условием для построения точных моделей машинного обучения и аналитики, и это самая трудоемкая часть проекта машинного обучения. Чтобы минимизировать эти временные затраты, специалисты по анализу данных могут использовать инструменты, которые помогают автоматизировать подготовку данных различными способами.
Как вы подготавливаете данные?
Подготовка данных состоит из ряда этапов, которые начинаются со сбора нужных данных, потом следуют очистка, маркировка, а затем – проверка и визуализация.
Сбор данных
Сбор данных – это процесс сбора всех данных, необходимых для машинного обучения. Он может быть утомительным, поскольку данные хранятся во многих источниках, в том числе на ноутбуках, в хранилищах, облаке, внутри приложений и на устройствах. Поиск способов подключения к различным источникам данных может оказаться непростой задачей. Объемы данных также растут экспоненциально, поэтому приходится осуществлять поиск их большого количества. Кроме того, данные имеют совершенно разные форматы и типы в зависимости от источника. Например, видеоданные и табличные данные нелегко использовать вместе.
Очистка данных
Очистка данных позволяет исправить ошибки и заполнить недостающие данные, что является шагом к обеспечению их качества. После того как вы получили чистые данные, вам необходимо преобразовать их в соответственный читаемый формат. Этот процесс может включать изменение форматов полей, таких как форматы дат и валюты, изменение соглашений об именовании, а также корректировку значений и единиц измерения для обеспечения их соответствия.
Маркировка данных
Маркировка данных – это процесс идентификации необработанных данных (изображений, текстовых файлов, видео и т.д.) и добавления одной или нескольких значимых и информативных меток для обеспечения контекста, чтобы модель машинного обучения могла на них учиться. Например, метки могут указывать, есть ли на фотографии птица или автомобиль, какие слова были произнесены в аудиозаписи или есть ли на рентгеновском снимке опухоль. Маркировка данных необходима для различных сценариев использования, включая компьютерное зрение, обработку естественного языка и распознавание речи.
Проверка и визуализация
После очистки и маркировки данных команды машинного обучения часто исследуют данные, чтобы убедиться в их правильности и готовности к машинной обработке. Такие визуализации, как гистограммы, графики рассеивания, блочные и усовидные графики, линейные графики и гистограммы, являются полезными инструментами для подтверждения правильности данных. Кроме того, визуализации также помогают командам специалистов по анализу данных проводить их исследовательский анализ. В этом процессе визуализация используется для обнаружения закономерностей, выявления аномалий, проверки гипотезы или предположений. Исследовательский анализ данных не требует формального моделирования; вместо этого команды специалистов по анализу данных могут использовать визуализации для их расшифровки.
Как AWS может помочь?
Инструменты подготовки данных Amazon SageMaker помогают организациям получить представление о структурированных и неструктурированных данных. Например, вы можете использовать Amazon SageMaker Data Wrangler для упрощения подготовки структурированных данных со встроенными визуализациями через визуальный интерфейс без кода. SageMaker Data Wrangler включает более 300 встроенных преобразований данных, поэтому вы можете быстро нормализовать, преобразовывать и объединять функции без написания кода. Вы также можете создавать свои собственные преобразования на языке Python или Apache Spark, если вам так больше нравится. Для неструктурированных данных нужны большие высококачественные наборы данных с метками. Используя Amazon SageMaker Ground Truth Plus, вы можете создавать высококачественные наборы данных для машинного обучения, сокращая расходы на маркировку данных до 40 % без необходимости создавать приложения для маркировки или самостоятельно управлять персоналом, занимающимся маркировкой.
Аналитики и бизнес-пользователи, предпочитающие подготовку данных внутри блокнота, могут визуально просматривать, обнаруживать и подключаться к средам обработки данных Spark, работающим на Amazon EMR, из блокнотов Amazon SageMaker Studio несколькими щелчками мыши. После подключения вы можете интерактивно запрашивать, исследовать и визуализировать данные, а также запускать задания Spark с использованием выбранного вами языка (SQL, Python или Scala) для построения полных рабочих процессов подготовки данных и машинного обучения.