Каковы различия между хранилищем данных, озером данных и банком данных?
Хранилища, озера и банки данных – это разные облачные решения для хранения данных. В хранилище данных данные хранятся в структурированном формате. Это центральный репозиторий предварительно обработанных данных, используемых для бизнес-аналитики. Банк данных – это хранилище данных, предназначенное для определенного бизнес-подразделения, например финансового, маркетингового или коммерческого отдела компании. Озеро данных – это центральный репозиторий необработанных и неструктурированных данных. Вы можете сначала сохранять данные, а затем их обрабатывать.
Сходства между хранилищами, банками и озерами данных
Сегодня организации имеют доступ к постоянно растущим объемам данных. Однако им необходимо сортировать, обрабатывать, фильтровать и анализировать необработанные данные, чтобы получить практически применимые результаты. В то же время им нужно следовать жестким рекомендациям по защите данных, чтобы соблюдать нормативные требования. Ниже приведены примеры рекомендаций, которых должны придерживаться организации.
- Собирать данные их различных источников, в том числе от приложений, поставщиков, датчиков Интернета вещей (IoT) и других сторонних источников.
- Преобразовывать данные в надежный, доверенный и применимый формат. Например, организации могут обрабатывать данные, чтобы приводить все даты в системе к общему формату или подводить итоги по ежедневным отчетам.
- Подготавливать данные путем перевода данных в формат XML для программного обеспечения для машинного обучения или создания отчетности для людей.
Организации используют различные инструменты и решения для достижения целей, поставленных перед аналитикой данных. Хранилища, банки и озера данных – это решения, которые помогают хранить данные.
Преимущества облачного хранилища, озера и банка данных
Все три решения для хранения данных помогают повысить доступность, надежность и безопасность данных. Далее приведены примеры их возможного использования.
- Безопасное хранение данных для аналитики
- Хранение неограниченного объема данных, пока они нужны
- Устранение разрозненности путем интеграции данных, получаемых от множества бизнес-процессов
- Анализ исторических данных или устаревших баз данных
- Анализ данных в режиме реального времени и пакетный анализ данных
Кроме того, эти три решения экономичны: вы платите только за использованный объем хранилища. Вы можете хранить все свои данные, анализировать их для выявления шаблонов и тенденций и использовать полученную информацию в экономической деятельности.
Ключевые отличия между хранилищами данных и банками данных
Хранилище данных – это реляционная база данных, в которой хранятся данные, поступающие из транзакционных систем и бизнес-приложений. Все данные в хранилище либо структурированы, либо заранее сведены в таблицы, соответствующие моделям. Структура и схема данных оптимизированы для быстрого выполнения SQL-запросов. Еще одно маркетинговое название этой технологии – банк данных. Это тоже реляционная база данных, но ее практическое применение очень отличается от применения хранилища данных. Основные различия приведены ниже.
Источники данных
Хранилища данных используют много источников данных: как внутренних, так и внешних. Вы можете извлекать данные, откуда угодно, преобразовывать их в структурированный формат и загружать в хранилище. Банки данных используют меньше источников данных и обычно меньше по размеру.
Фокус
В хранилищах данных обычно хранятся данные нескольких бизнес-подразделений. Они централизованно интегрируют данные, поступающие из разных подразделений организации, для проведения всестороннего анализа. Банки данных сосредоточены на одной теме и более децентрализованы по своей природе. Обычно они фильтруют и суммируют информацию из другого существующего хранилища данных.
Применение
При наличии множества пользователей и проектов необходимо хранить данные в хранилищах. Поэтому жизненный цикл хранилищ обычно дольше, и они более сложные по своей природе. С другой стороны, банки данных могут быть сконцентрированы на проектах и иметь ограниченное применение. Подразделения предпочитают создавать банки данных на основе корпоративного хранилища данных и удалять их после завершения сценария использования.
Подход к проектированию
Специалисты по обработке данных применяют к проектированию хранилищ данных подход «сверху вниз». Сначала они составляют общий план архитектуры, а затем решают проблемы по мере их возникновения. Однако в случае банка данных специалист по работе с данными уже знает подробности: значения, типы данных и внешние источники данных. Он может сразу планировать реализацию и проектировать банк данных «снизу вверх».
Характеристики | Хранилище данных | Витрина данных |
---|---|---|
Охват | Централизовано, содержит данные из разных областей |
Децентрализована, содержит данные из определенной области |
Пользователи | Вся организация |
Отдельное сообщество или отдел |
Источник данных |
Множество источников |
Один или несколько источников либо часть данных из хранилища данных |
Размер |
Большой, от сотен гигабайт до петабайтов |
Небольшой, обычно до десятков гигабайт |
Проектирование | Сверху вниз |
Снизу вверх |
Детализация данных | Полные подробные данные |
Может содержать обобщенные данные |
Подробнее о хранилищах данных |
Подробнее о банках данных |
Ключевые отличия между хранилищами данных и озерами данных
Хранилище данных и озеро данных – это две связанные, но в корне различные технологии. В то время как в хранилище данных содержатся структурированные данные, озеро данных является централизованным хранилищем, которое позволяет хранить данные в любом масштабе. Озеро данных предлагает больше вариантов хранения данных, оно более сложное и имеет иные применения, чем хранилище данных. Основные различия приведены ниже.
Источники данных
Озера и хранилища данных могут использовать неограниченное количество источников данных. Но перед размещением данных в хранилище нужно спроектировать схему данных. В систему можно загружать только структурированные данные. Озера данных, напротив, не выдвигают таких требований. В них могут храниться неструктурированные и полуструктурированные данные, например журналы веб-серверов, данные навигации, социальных сетей и показания датчиков.
Предварительная обработка
Перед размещением данных в хранилище обычно требуется их предварительная обработка. Инструменты ETL (извлечение, преобразование и загрузка) используются для предварительной очистки, фильтрации и структурирования наборов данных. Озера данных, напротив, хранят любые данные. Вы получаете гибкость благодаря возможности выбора: проводить предварительную обработку или нет. Обычно организации используют инструменты ELT (извлечение, загрузка и преобразование). Они сразу загружают данные в озеро, а преобразуют их только по требованию.
Качество данных
Хранилище данных более надежно, потому что вы можете проводить обработку заранее. Некоторые функции, такие как дедупликация, сортировка, суммирование и проверка, можно применить заранее, чтобы гарантировать точность данных. В озере данных могут храниться дублирующиеся, ошибочные и непроверенные данные, если они не были проверены заблаговременно.
Производительность
Хранилище данных оптимизировано для обеспечения наивысшей скорости выполнения запросов. Бизнес-пользователи предпочитают хранилища данных, чтобы более эффективно создавать отчеты. Архитектура озера данных отдает больший приоритет объему хранилища и снижению затрат, чем производительности. Вы можете получить намного больший объем хранилища по меньшей цене и при этом использовать данные с достаточно приемлемой скоростью.
Характеристики | Хранилище данных | Озеро данных |
---|---|---|
Доступность/надежность | Реляционные данные из транзакционных систем, операционных баз данных и групп бизнес-приложений |
Любые данные, в том числе структурированные, частично структурированные или неструктурированные |
Схема | Часто разрабатывается еще до реализации хранилища данных, но может создаваться и на этапе анализа (схема при записи или схема при чтении) |
Записывается в момент анализа (схема при чтении) |
Соотношение цены и производительности |
Самая высокая скорость выполнения запросов за счет использования локального хранилища |
Ускоренное выполнение запросов за счет использования недорогого хранилища и разделения процессов вычисления и хранения |
Качество данных |
Данные, прошедшие строгую проверку для использования в качестве главной и достоверной версии |
Любые данные, проверенные и не проверенные (необработанные данные) |
Пользователи | Бизнес-аналитики, разработчики и специалисты по работе с данными |
Бизнес‑аналитики (используют проверенные данные), специалисты по работе с данными, разработчики и инженеры, создатели архитектур данных |
Аналитика | Пакетные отчеты, бизнес-аналитика и визуализация |
Машинное обучение, исследовательская аналитика, изучение данных, потоковая передача, операционная аналитика, большие данные, профилирование |
Подробнее о хранилищах данных | Подробнее об озерах данных |
Когда следует использовать озера, хранилища или банки данных?
Большинство крупных организаций используют в своей инфраструктуре хранения данных сочетание озер, хранилищ и банков данных. Обычно все данные собираются в озеро данных, а затем загружаются в различные хранилища и банки для соответствующих примеров использования. Технологическое решение зависит от различных факторов, которые подробно описаны ниже.
Гибкость
В целом озера данных дают больше гибкости при меньших затратах. Различные подразделения могут обращаться к одним и тем же данным с помощью тех аналитических инструментов и платформ, которые они предпочитают. Вы можете экономить время, поскольку не нужно определять структуры, схемы и преобразования данных.
Типы данных
Хранилище данных больше подойдет тем, кому требуется хранить реляционные данные, например о клиентах и бизнес-процессах. Если у вас большой объем реляционных данных, то ваше подразделение может рассмотреть вариант создания нескольких банков данных в соответствии с отдельными потребностями бизнеса. Например, бухгалтерия может создать банк данных, чтобы вести балансовую отчетность и подготавливать выписки по счетам для клиентов, а подразделение маркетинга может создать еще один банк данных для оптимизации рекламных кампаний.
Стоимость и объем
Хранилище данных может эффективно управлять сотнями петабайтов (ПБ) данных. Озера данных предлагают сравнительно более низкую цену за больший объем, особенно при большом количестве изображений и видео. Однако не каждой организации может потребоваться такой масштаб.
Как AWS может удовлетворить ваши потребности в хранении данных?
AWS предоставляет самый широкий выбор аналитических услуг, которые удовлетворят все ваши потребности в анализе данных. Мы даем отраслям и организациям всех размеров возможность перестроить свой бизнес по-новому с помощью данных. Далее приведены примеры возможного использования AWS.
- Используйте Amazon Redshift для своих хранилищ и банков данных. Получите полезные результаты по всем имеющимся данным, выполняя интерактивный и прогностический анализ по сложным данным огромного размера во всех корпоративных базах данных, озерах данных, хранилищах данных и тысячам наборов данных сторонних организаций. Можно с легкостью автоматически создавать, обучать и развертывать модели машинного обучения.
- Используйте AWS Lake Formation, чтобы создать и защитить свое озеро данных и начать управлять им за считаные дни. С высокой скоростью импортируйте данные из всех источников, а затем описывайте их и управляйте ими в централизованном каталоге данных.
- Используйте Amazon S3, чтобы создать пользовательское озеро данных для приложений аналитики больших данных, искусственного интеллекта, машинного обучения и высокопроизводительных вычислений.
Начните работу с хранилищем данных в AWS, создав бесплатный аккаунт уже сегодня.