Миграция данных в облако

Переместите локальные данные в AWS в целях миграции или текущей обработки

В основе успешного развертывания приложения, аналитических рабочих процессов и инновационного машинного обучения лежат данные. При переносе данных в облако, помимо прочего, необходимо понимать, где размещаются данные для различных сценариев использования, какие типы данных перемещаются и какие сетевые ресурсы доступны. AWS предлагает широкий выбор сервисов и инструментов от партнеров, которые помогут переместить данные вне зависимости от того, в каком виде они хранятся: в файлах, базах данных, образах машин, блочных хранилищах или даже на ленточных накопителях.

Cloud Storage in Minutes with AWS Storage Gateway (6:38)

Сервисы AWS для миграции данных в облако

AWS предлагает целый набор сервисов передачи данных, и вы можете выбрать нужное решение для любого проекта по миграции данных. При миграции данных уровень подключения – очень важный фактор, и у AWS есть предложения, которые могут удовлетворить ваши потребности в гибридном облачном хранилище, а также в переносе данных по сети и в автономном режиме.

Гибридное облачное хранилище

Многие клиенты знают о преимуществах облачного хранилища, но используют приложения, развернутые локально, которым необходим доступ к данным с минимальной задержкой или быстрая передача данных в облако. Гибридные облачные архитектуры для хранения на платформе AWS позволяют подключить локальные приложения и системы к облачному хранилищу. Благодаря этому вы можете снизить расходы, оптимизировать процесс управления и использовать инновационные инструменты для работы с данными.

AWS Storage Gateway

Сервис AWS Storage Gateway упрощает развертывание локальных ресурсов в хранилище AWS. С помощью Storage Gateway вы можете легко подключить локальные приложения к хранилищу AWS. Клиенты используют сервис Storage Gateway, чтобы без особого труда заменять ленточные библиотеки облачным хранилищем, создавать файловые ресурсы на основе облачного хранилища или кеши с малыми задержками для доступа локальных приложений к данным в AWS. Сервис предоставляет три типа шлюзов: файловый шлюз, ленточный шлюз и шлюз томов.

  • Файловые данные файлового шлюза сохраняются как объекты с большим сроком службы в Amazon S3 или в полностью управляемых общих файловых ресурсах с помощью Amazon S3 File Gateway либо Amazon FSx File Gateway соответственно.
  • Конфигурацию ленточного шлюза с виртуальной ленточной библиотекой (VTL) можно эффективно интегрировать с существующим ПО для резервного копирования, чтобы заменить ленточные накопители на Amazon S3 без лишних затрат и начать использовать долгосрочное архивирование в S3 Glacier и S3 Glacier Deep Archive.
  • Шлюз томов хранит или кэширует блочные тома локально с резервным копированием на момент времени в виде снимков состояния EBS. Эти снимки состояния можно восстанавливать в облаке.

AWS Direct Connect

Клиенты выбирают выделенное физическое подключение Direct Connect для ускорения передачи данных по сети между собственными центрами обработки данных и центрами AWS.

AWS Direct Connect позволяет установить выделенное сетевое соединение между вашей корпоративной сетью и одним из местоположений AWS Direct Connect. Использование стандартных виртуальных локальных сетей 802.1q позволяет разбить такое выделенное соединение на несколько виртуальных интерфейсов. Это дает возможность использовать одно и то же соединение как для доступа к публичным ресурсам (например, объектам Amazon S3) с использованием пространства публичных IP-адресов, так и к частным ресурсам (например, инстансам Amazon EC2), работающим в Amazon Virtual Private Cloud (VPC), с использованием пространства частных IP-адресов, и при этом поддерживать разделение сети на публичную и частную среду. Виртуальные интерфейсы в любое время можно перенастроить в соответствии с меняющимися потребностями.

Узнайте о пакетах партнеров AWS Direct Connect, которые помогут начать использовать локальные технологии в облаке. 

Передача данных по сети

С помощью этих сервисов и онлайн-методов можно легко управлять передачей данных на платформу AWS и обратно.

AWS DataSync

AWS DataSync – это сервис передачи данных, который упрощает автоматизацию переноса данных между локальными хранилищами и Amazon S3 или Amazon Elastic File System (Amazon EFS), либо Amazon FSx for Windows File Server. DataSync автоматически обрабатывает многие из задач при передаче данных, которые могут замедлить перенос или стать излишней нагрузкой для ИТ‑отдела (включая запуск собственных инстансов, обработку шифрования, управление скриптами, оптимизацию сети и проверку целостности данных). AWS DataSync позволяет переносить данные в облако AWS до 10 раз быстрее, чем при использовании инструментов с открытым исходным кодом. DataSync можно использовать для копирования данных через подключение AWS Direct Connect или по интернет‑ссылкам на AWS при однократном переносе данных, в повторяющихся процессах обработки данных и для автоматической репликации в целях защиты и восстановления данных.

Группа сервисов AWS Transfer

Группа сервисов AWS Transfer обеспечивает полностью управляемую поддержку передачи файлов напрямую в сервис Amazon S3 и из него. Благодаря поддержке протоколов Secure File Transfer Protocol (SFTP), File Transfer Protocol over SSL (FTPS) и File Transfer Protocol (FTP) с помощью группы сервисов AWS Transfer вы можете без особого труда перенести свои рабочие процессы передачи файлов в AWS, выполнив интеграцию с существующими системами аутентификации и обеспечив маршрутизацию DNS с помощью сервиса Amazon Route 53, поэтому для ваших клиентов, партнеров и их приложений ничего не изменится. Разместив свои данные в сервисе Amazon S3, вы сможете использовать их в сервисах AWS для обработки, анализа, машинного обучения и архивирования. Начать работу с группой сервисов AWS Transfer просто, ведь для этого не нужно покупать оборудование и настраивать его.

Amazon S3 Transfer Acceleration

Amazon S3 Transfer Acceleration ускоряет передачу данных в Amazon S3 через публичный Интернет. Вы можете максимально увеличить доступную вам пропускную способность независимо от расстояния и качества связи в Интернете, не используя специальные клиенты и проприетарные сетевые протоколы. Просто смените URL-адрес сервера, используемый вашей корзиной S3, и ускорение будет применено автоматически.

Сервис идеально подходит для повторяющихся заданий с перемещением данных по всему миру, таких как загрузка мультимедиа, резервное копирование и задачи по обработке локальных данных, регулярно пересылаемых в центральное местоположение.

AWS Snowcone

AWS Snowcone – самый маленький представитель среди устройств AWS Snow, предназначенных для периферийных вычислений и передачи данных. Snowcone обладает высокой мобильностью, защищенностью и надежностью. Вы можете использовать Snowcone для сбора, обработки и перемещения данных в AWS онлайн, воспользовавшись функциями AWS DataSync. Запуск приложений в изолированных средах или в подключенных к сети периферийных местоположениях может вызвать немало трудностей, так как зачастую в таких местах не хватает пространства, мощностей или охлаждения, необходимого для технологического оснащения центра обработки данных. Устройство AWS Snowcone позволяет надежно хранить данные в периферийных местоположениях, а также оно способно поддерживать те рабочие нагрузки для периферийных вычислений, которые используют инстансы AWS IoT Greengrass или Amazon EC2. Устройство Snowcone является весьма компактным и весит всего 2,1 кг (4,5 фунта), так что вы с легкостью можете закинуть его в свой рюкзак или встроить в узкое пространство для его использования в IoT, транспорте или даже в дроне.

Amazon Kinesis Data Firehose

Amazon Kinesis Data Firehose – самый простой способ загрузки потоковых данных в AWS. Этот инструмент позволяет захватывать и автоматически загружать потоковые данные в Amazon S3 и Amazon Redshift, а затем выполнять анализ с помощью имеющихся средств бизнес-аналитики и информационных панелей практически в режиме реального времени. Этот полностью управляемый сервис автоматически масштабируется в зависимости от пропускной способности потока данных и не требует постоянного администрирования. Кроме того, Amazon Kinesis Firehose позволяет создавать пакеты данных, а также сжимать и шифровать данные перед загрузкой, что сокращает объем памяти, используемый в целевом расположении, и повышает уровень безопасности. Всего за несколько минут с помощью Консоли управления AWS можно создать поток доставки данных Firehose, настроить его несколькими щелчками мышью и запустить передачу данных из сотен тысяч источников, которые будут постоянно загружаться в AWS.

Продукты от партнеров APN

Компания AWS сотрудничает со многими отраслевыми поставщиками физических шлюзов, с помощью которых можно одновременно использовать традиционные технологии резервного копирования и облачные решения. Свяжите существующие локальные данные с облаком Amazon, чтобы выполнить перемещение, не влияя на производительность и сохраняя существующие каталоги резервных копий.

  • Легко встраивается в существующую инфраструктуру.
  • Может предлагать дедупликацию, сжатие, шифрование или ускорение сети WAN.
  • Кэширует недавние резервные копии локально, хранит всё в облаке AWS.

Неуправляемые инструменты миграции данных в облако

Помимо перечисленного, AWS предлагает удобные скрипты и инструменты интерфейса командной строки для переноса локальных данных в облачное хранилище AWS.

rsync

Для копирования данных непосредственно в корзины S3 клиенты используют rsync с открытым исходным кодом вместе с инструментами сторонних производителей для работы с файловой системой.

Интерфейс командной строки S3

Клиенты используют интерфейс командной строки Amazon S3 для написания команд перемещения данных непосредственно в корзины S3.

Интерфейс командной строки S3 Glacier

Клиенты используют интерфейс командной строки Amazon S3 Glacier для переноса данных в хранилища S3 Glacier.

Основная проблема при миграции данных в облако

Для большинства проектов перспектива переноса данных выглядит довольно устрашающе. Как быстро и аккуратно перенести данные из текущего местоположения в новое облако с минимальными сбоями, финансовыми и временными затратами? Есть ли оптимальный способ переноса гигабайтов, терабайтов или петабайтов данных?

Основной вопрос заключается в том, какой объем данных можно перенести, на какое расстояние и за какое время. Для расчета оптимального варианта воспользуйтесь приведенной ниже формулой:

Количество дней = (Общее кол-во байт)/(Мегабиты в секунду * 125 * 1000 * Использование сети * 60 секунд * 60 минут * 24 часа)

Например, при наличии подключения T1 (1,544 Мбит/с) и необходимости перемещения 1 ТБ данных (1024 * 1024 * 1024 * 1024 байт) в облако AWS или из него минимальное время загрузки данных с помощью этого сетевого подключения теоретически составит 82 дня при 80 % использовании сети.

Не переживайте. Мы это уже делали. Мы обнаружили, что клиенты применяют два основных подхода: используют очень простые неуправляемые средства миграции для перемещения данных или выбирают один из сервисов AWS, описанных выше.

В качестве общего правила мы рекомендуем следующее:

Соединение Объем данных Инструменты
Менее 10 Мбит/с Менее 500 ГБ Неуправляемые
Более 10 Мбит/с Более 500 ГБ Управляемый сервис