Amazon EMR изначально поддерживает Apache HBase, предоставляя доступ в реальном времени к таблицам, которые можно масштабировать до миллиардов строк и миллионов столбцов. Amazon EMR сочетает преимущества Apache HBase с открытым исходным кодом – хранилища данных, ориентированного на столбцы, в распределенных системах – с надежностью, производительностью, интеграцией и инструментами Amazon EMR. Вы можете обеспечить стабильную запись и чтение, а также запрашивать результаты по петабайтам данных за миллисекунды для выполнения критически важных рабочих нагрузок в сфере финансовых услуг, рекламных технологий, веб-аналитики и приложений с использованием данных временных рядов. Существующие приложения Apache HBase будут работать в Amazon EMR без изменений кода. Подробнее об Apache HBase в Amazon EMR.
Функции и преимущества
Надежность
Благодаря Amazon EMR можно применять Amazon S3 в качестве хранилища данных для Apache HBase с использованием файловой системы EMR. Использование Amazon S3 в качестве хранилища данных позволяет отделить вычисления от хранения данных и обеспечивает ряд преимуществ по сравнению с кластерной распределенной файловой системой Hadoop (HDFS) из Apache Hadoop. Вы можете сэкономить средства, определив размер кластера с учетом требований к вычислениям, а не к хранению данных в HDFS, и при этом получить доступность и надежность Amazon S3 для хранения данных. Вы можете масштабировать вычислительные узлы, не влияя на базовое хранилище, прекратить работу кластера по завершении задания, чтобы сэкономить средства, и быстро восстановить кластер, когда это необходимо. Кроме того, можно создать и настроить кластер реплики чтения в зоне доступности Amazon EC2, где находится основной кластер, обеспечивающий доступ к данным только для чтения. Это гарантирует непрерывный доступ к используемым данным, даже если основной кластер становится недоступным. Amazon EMR также сохраняет файлы данных Apache HBase (HFiles) в Amazon S3.
Производительность
База данных Apache HBase рассчитана на обеспечение высокой производительности при увеличении масштаба до сотен узлов для работы с миллионами столбцов и миллиардами строк в произвольном доступе. Она использует Amazon S3 (с EMRFS) или распределенную файловую систему Hadoop (HDFS) в качестве отказоустойчивого хранилища данных. Сервис Amazon EMR поддерживает множество типов инстансов и томов Amazon EBS, что позволяет индивидуально настраивать аппаратное обеспечение кластера для оптимизации затрат и производительности.
Интеграция
Запустить полностью настроенный кластер Amazon EMR с Apache HBase и другими приложениями семейств Apache Hadoop и Apache Spark можно очень просто, за считанные минуты. Сервис Amazon EMR производит автоматическую замену низкопроизводительных узлов и позволяет без труда изменять размер кластера в соответствии с потребностями. Управлять таблицами и просматривать данные в Apache HBase можно с помощью пользовательского интерфейса Hue, а резервировать и восстанавливать таблицы в Amazon S3 очень просто благодаря файловой системе EMRFS и Hadoop MapReduce. Вдобавок хранилище Apache HBase поддерживает авторизацию Amazon EMR, аутентификацию по протоколу Kerberos и набор возможностей шифрования. Нажмите здесь, чтобы получить дополнительные сведения о возможностях сервиса Amazon EMR.
Инструментарий
Amazon EMR позволяет применять Amazon S3 в качестве хранилища данных для Apache HBase с использованием файловой системы EMR. Разделение хранилища и вычислительных узлов кластера путем использования Amazon S3 в качестве хранилища данных обеспечивает ряд преимуществ по сравнению с файловой системой HDFS на кластере. Можно сэкономить, определив размер кластера на основе требований к вычислительным ресурсам, а не требований к хранилищу данных HDFS, и получить при этом доступное и надежное хранилище на базе S3. Можно масштабировать вычислительные узлы без влияния на базовое хранилище, прекращать работу кластера для сокращения расходов, а затем быстро его восстанавливать. Кроме того, можно создать и настроить кластер реплики чтения в другой зоне доступности Amazon EC2, обеспечивающий доступ только для чтения к тем же данным, что и основной кластер. Это гарантирует непрерывный доступ к используемым данным, даже если основной кластер становится недоступным.
Истории успеха клиентов, использующих HBase и Amazon EMR
FINRA использует Amazon EMR для запуска Apache HBase на Amazon S3, благодаря чему удается быстро получить доступ к триллионам торговых записей и сократить расходы более чем на 60 %.
Monster использует Apache HBase в Amazon EMR для хранения данных об анализе навигации и рекламных кампаниях, а также выполнения SQL-запросов с помощью Apache Hive.
Публикации в блоге
Подробнее о ценах на Amazon EMR