Что такое интеграция с нулевым использованием ETL?
Интеграция с нулевым использованием ETL – это набор интеграций, который устраняет или сводит к минимуму необходимость создания конвейеров данных ETL. Извлечение, преобразование и загрузка (ETL) – это процесс подготовки данных из различных источников к рабочим нагрузкам анализа, искусственного интеллекта (ИИ) и машинного обучения (МО) посредством их объединения, очистки и нормализации. Традиционные процессы ETL требуют много времени и сложны в разработке, обслуживании и масштабировании. Интеграция с нулевым использованием ETL упрощает перемещение данных без необходимости создания конвейеров ETL. Интеграция с нулевым использованием ETL также позволяет выполнять запросы в разрозненных хранилищах без необходимости перемещения данных.
Какие проблемы, связанные с процессом ETL, решает интеграция с нулевым использованием ETL?
Интеграция с нулевым использованием ETL позволяет решить многие из существующих проблем, связанных с перемещением данных в традиционных процессах ETL.
Повышенная сложность системы
Конвейеры данных ETL еще больше усложняют процессы интеграции данных. Для отображения данных в соответствии с желаемой целевой схемой необходимо использовать сложные правила сопоставления данных и обрабатывать их несоответствия. Для диагностики проблем необходимо внедрять эффективные механизмы обработки ошибок, ведения журналов и уведомлений. Требования к защите данных приводят к еще большему ограничению возможностей системы.
Дополнительные расходы
Конвейеры ETL изначально дорогостоящие, но затраты также могут расти по мере увеличения объема данных. Хранение дублирующихся данных в больших объемах в разных системах может быть нецелесообразно с финансовой точки зрения. Кроме того, масштабирование процессов ETL часто требует дорогостоящих обновлений инфраструктуры, оптимизации производительности выполнения запросов и применения методов параллельной обработки. В случае изменения требований инженерам по обработке данных приходится постоянно отслеживать и тестировать конвейер в процессе обновления, вследствие чего увеличиваются затраты на его обслуживание.
Задержки в выполнении рабочих нагрузок анализа, ИИ и ML
В процессе ETL инженерам по обработке данных обычно приходится создавать собственный код, а инженерам DevOps – развертывать инфраструктуру, необходимую для масштабирования рабочей нагрузки, и управлять ею. В случае изменений в источниках данных инженерам по обработке данных нужно вручную вносить изменения в код и повторно его развертывать. Этот процесс может занять несколько недель, что приводит к задержкам в выполнении рабочих нагрузок анализа, искусственного интеллекта и машинного обучения. Кроме того, из-за затратного по времени процесса создания и развертывания конвейеров данных ETL данные становятся непригодными для использования в режиме почти реального времени, например для размещения онлайн-рекламы, обнаружения мошеннических транзакций или анализа цепочки поставок в реальном времени. В этих сценариях не представляется возможным улучшить качество обслуживания клиентов, реализовать новые бизнес-возможности или снизить бизнес-риски.
В чем заключаются основные преимущества интеграции с нулевым использованием ETL?
Интеграция с нулевым использованием ETL предлагает ряд преимуществ для стратегии обработки данных организации.
Повышенная гибкость
Интеграция с нулевым использованием упрощает архитектуру данных и сокращает усилия по их инженерии. Она позволяет добавлять новые источники данных без необходимости повторно обрабатывать большие объемы информации. Такие гибкие возможности позволяют легко принимать решения на основе данных и быстро внедрять инновации.
Экономия
В решениях для интеграции данных с нулевым использованием ETL применяются специальные облачные и масштабируемые технологии, позволяющие компаниям оптимизировать расходы в зависимости от фактического применения и потребностей в обработке данных. Организации сокращают затраты на инфраструктуру и обслуживание, а также уменьшают усилия по разработке.
Аналитика в режиме реального времени
Традиционные процессы ETL зачастую предусматривают регулярные пакетные обновления, что приводит к задержкам во время получения доступа к данным. Интеграция с нулевым использованием ETL, напротив, обеспечивает доступ к данным в режиме реального или почти реального времени. Благодаря этому можно получать более свежие данные для анализа, ИИ/ML и отчетности. Таким образом вы получаете более точные и оперативные аналитические данные для таких сценариев использования, как информационные панели, обновляемые в режиме реального времени, оптимизированный игровой процесс, мониторинг качества данных и анализ поведения клиентов. Организации с большей уверенностью делают прогнозы и выполняют анализ на основе данных в масштабах всей компании, а также улучшают качество обслуживания клиентов.
Какие бывают варианты применения интеграции с нулевым использованием ETL?
Существует три основных варианта применения интеграции с нулевым использованием ETL.
Федеративные запросы
Технологии федеративных запросов предоставляют возможность запрашивать данные из различных источников, не беспокоясь о их перемещении. Вы можете использовать знакомые команды SQL для выполнения запросов и объединения данных из нескольких источников, таких как операционные базы, хранилища и озера данных. In-Memory Data Grids (IMDG) обеспечивают мгновенный анализ и запрашивание данных посредством хранения их в оперативной памяти для кэширования и обработки. Затем полученные результаты можно сохранить в хранилище данных для дальнейшего анализа и последующего использования.
Прием потоковых данных
Платформы потоковой передачи данных и очередей сообщений передают потоком данные в режиме реального времени из нескольких источников. Интеграция с нулевым использованием ETL с хранилищем данных позволяет принимать данные из нескольких таких потоков и практически мгновенно передавать их для анализа. Нет необходимости размещать потоковые данные для преобразования в любом другом сервисе хранения.
Мгновенная репликация
Традиционно для перемещения данных из транзакционной базы данных в центральное хранилище всегда требовалось сложное решение ETL. Сегодня интеграция с нулевым использованием ETL может выступать в качестве инструмента репликации данных, мгновенно дублируя их из транзакционной базы данных в хранилище. В механизме дублирования используются методы отслеживания измененных данных (Change Data Capture, CDC). Данный механизм также можно встроить в хранилище данных. Дублирование выполняется незаметно для пользователей: приложения хранят данные в транзакционной базе данных, а аналитики беспрепятственно запрашивают их из хранилища.
Как AWS может поддержать ваши усилия по интеграции с нулевым использованием ETL?
AWS инвестирует в решения для интеграции с нулевым использованием ETL. Ниже приведены примеры сервисов со встроенными возможностями интеграции с нулевым использованием ETL.
Amazon Athena – это бессерверный интерактивный аналитический сервис, построенный на базе платформ с открытым исходным кодом и поддерживающий форматы открытых таблиц и файлов. Athena предоставляет упрощенный и гибкий способ анализа петабайтов данных там, где они находятся. Вы можете анализировать данные или создавать приложения на основе озера данных Простого сервиса хранения данных Amazon (S3) и 30 источников данных, включая локальные источники или другие облачные системы, с помощью SQL либо Python. Athena построена на движках Trino и Presto с открытым исходным кодом и фреймворке Apache Spark, при этом не требует никаких усилий по обеспечению или настройке.
Amazon Redshift Streaming Ingestion принимает сотни мегабайтов данных в секунду из Потоков данных Amazon Kinesis или Amazon MSK. Определите схему или выполняйте прием частично структурированных данных с помощью типа данных SUPER для запрашивания данных в режиме реального времени.
Благодаря решению для интеграции данных из Amazon Aurora в Amazon Redshift с нулевым использованием ETL можно производить их анализ практически в режиме реального времени и применять возможности машинного обучения (ML). Оно позволяет выполнять анализ петабайтов транзакционных данных, полученных из Aurora, в Amazon Redshift. Это полностью управляемое решение, которое делает транзакционные данные доступными в Amazon Redshift после их записи в кластере Aurora DB.
Возможности автоматического копирования данных из S3 в Amazon Redshift позволяют упростить и автоматизировать прием файлов в Amazon Redshift. Они обеспечивают беспрерывный прием данных непосредственно после создания новых файлов в S3 без потребности в специальном кодировании или ручных настройках.
Возможности AWS Lake Formation для контроля обмена информацией позволяют централизованно и точно управлять доступом к данным, совместно используемым в организации. В Amazon Redshift можно определять, изменять и проверять права доступа на таблицах, столбцах и строках.
Создайте бесплатный аккаунт и начните работу с решениями AWS для интеграции с нулевым использованием ETL уже сегодня.
AWS: дальнейшие шаги
Получите мгновенный доступ к уровню бесплатного пользования AWS.