ما المقصود بـ Apache Hive؟

Apache Hive عبارة عن نظام مستودع بيانات موزع ويتعامل مع الأعطال يتيح التحليلات على نطاق واسع. يوفر مستودع البيانات مخزنًا مركزيًا للمعلومات التي يسهل تحليلها لاتخاذ قرارات مستنيرة قائمة على البيانات. يتيح Hive للمستخدمين قراءة بيانات يصل حجمها وحدات بيتابايت وكتابتها وإدارتها باستخدام SQL.

اعتمد Hive في تصميمه على Apache Hadoop، وهو إطار مفتوح المصدر يُستخدم في تخزين مجموعات البيانات الكبيرة ومعالجتها بكفاءة. ونتيجةً لذلك، يحدث تكامل وثيق بين Hive وHadoop، وتم تصميمه للعمل بسرعة على وحدات بيتابايت من البيانات. ما يتفرد به Hive هو القدرة على الاستعلام في مجموعات البيانات الكبيرة، مع الاستفادة من Apache Tez أو MapReduce، من خلال واجهة تشبه SQL.

ما آلية عمل Hive؟

تم إنشاء Hive للسماح لغير المبرمجين المطلعين على SQL بالعمل مع وحدات بيتابايت من البيانات، باستخدام واجهة تشبه SQL تسمى HiveQL. تم تصميم قواعد البيانات العلائقية التقليدية للاستعلامات التفاعلية على مجموعات البيانات الصغيرة والمتوسطة ولكنها لا تجيد معالجة مجموعات البيانات الضخمة. تستخدم Hive بدلاً من ذلك المعالجة المجمعة، حيث تعمل بسرعة عبر قاعدة بيانات موزعة كبيرة جدًا. يُحوّل Hive استعلامات HiveQL إلى وظائف MapReduce أو Tez التي تعمل على إطار جدولة وظائف Apache Hadoop الموزعة، وهو الإطار Yet Another Resource Negotiator (YARN). يستعلم عن البيانات المخزنة في حل التخزين الموزع، مثل نظام الملفات الموزّعة لـ Hadoop (HDFS) أو Amazon S3. يُخزن Hive قاعدة البيانات والبيانات الوصفية الخاصة بالجداول في مخزن metastore، وهو قاعدة بيانات أو مخزن مدعوم بالملفات يتيح سهولة استخراج البيانات واكتشافها.

يتضمن Hive دليل HCatalog، وهو عبارة عن طبقة لإدارة الجداول والتخزين تقرأ البيانات من Hive metastore لتسهيل التكامل السلس بين Hive وApache Pig وMapReduce. باستخدام متجر metastore، يتيح HCatalog لكل من Pig وMapReduce استخدام نفس هياكل البيانات مثل Hive، وبالتالي لا يلزم إعادة تعريف البيانات الوصفية لكل محرك. يُمكن للتطبيقات المخصصة أو تكاملات الجهات الخارجية استخدام WebHCat، وهي واجهة RESTful API للدليل HCatalog للوصول إلى بيانات Hive الوصفية وإعادة استخدامها.

ما مزايا Hive؟

السرعة

الغرض من تصميم Hive هو التعامل بسرعة مع وحدات بيتابايت من البيانات باستخدام المعالجة المجمعة.

مألوف

يوفر Hive واجهةً مألوفةً تشبه SQL يمكن أن يصل إليها غير المبرمجين.

قابلية التكيف

من السهل توزيع Hive وتوسعة نطاقه بناءً على احتياجاتك.

ما الاختلافات بين Apache Hive وApache HBase؟

Apache HBase هي قاعدة بيانات NoSQL موزعة تتيح الوصول العشوائي والمتسق تمامًا في الوقت الفعلي إلى وحدات بيتابايت من البيانات. Apache Hive هو نظام مستودع بيانات موزع يوفر إمكانات استعلام تشبه SQL.

السمات

Apache Hive

Apache HBase

الوظيفة

محرك استعلام يشبه SQL مصمم لمخازن البيانات ذات الحجم الكبير. يتم دعم العديد من تنسيقات الملفات.

مخزن مفتاح-قيمة موزع ذو زمن استجابة منخفض يتضمن إمكانات استعلامات مخصصة. تُخزن البيانات بتنسيق موجه للعمود.

نوع المعالجة

المعالجة المجمعة باستخدام أطر الحوسبة Apache Tez أو MapReduce.

المعالجة في الوقت الفعلي.

وقت الاستجابة

متوسط إلى مرتفع، حسب استجابة محرك الحوسبة. يوفر نموذج التنفيذ الموزع أداءً فائقًا مقارنة بأنظمة الاستعلام المتجانسة، مثل RDBMS، لنفس أحجام البيانات.

منخفض، لكنه قد يكون غير متسق. يمكن أن تؤدي القيود الهيكلية في بنية HBase إلى ارتفاع زمن الاستجابة في ظل أحمال الكتابة المكثفة.

تكامل Hadoop

يعمل على Hadoop، مع Apache Tez أو MapReduce في حالة المعالجة ومع HDFS أو Amazon S3 في حالة التخزين.

يعمل على HDFS أو Amazon S3.

دعم SQL

يوفر إمكانات استعلام تشبه SQL مع HiveQL.

لا يتوفر معه دعم SQL. يُمكنك استخدام Apache Phoenix للحصول على إمكانات SQL.

المخطط

مخطط محدد لجميع الجداول.

بلا مخططات.

أنواع البيانات

يدعم البيانات المهيكلة والبيانات غير المهيكلة. يوفر دعمًا أصليًا لأنواع بيانات SQL الشائعة، مثل INT وFLOAT وVARCHAR.

يدعم البيانات غير المهيكلة فقط. يقوم المستخدم بتحديد تعيينات حقول البيانات لأنواع البيانات المدعومة من Java.

ما حالات استخدام Hive؟

تمنح Guardian ‏27 مليون عضو الأمان الذي يستحقونه من خلال منتجات وخدمات التأمين وإدارة الثروات. تقوم Guardian باستخدام Amazon EMR لتشغيل Apache Hive على مخزن بيانات S3. يُستخدم Apache Hive في المعالجة المجمعة. يقوم مخزن بيانات S3 بتغذية Guardian Direct، وهي منصة رقمية تسمح للمستهلكين بالبحث وشراء كل من منتجات Guardian ومنتجات الجهات الخارجية في قطاع التأمين.

FINRAK هيئة تنظيم القطاع المالي، هي أكبر منظم مستقل للأوراق المالية في الولايات المتحدة، وتراقب وتنظم ممارسات التداول المالي. تقوم FINRA باستخدام Amazon EMR لتشغيل Apache Hive على مخزن بيانات S3. إن تشغيل Hive على مجموعات EMR يُمكّن FINRA من معالجة وتحليل بيانات التداول لما يصل إلى 90 مليار حدث باستخدام SQL. أدى مخزن البيانات السحابي إلى تحقيق وفورات في التكلفة تصل إلى 20 مليون USD مقارنةً بحل FINRA المحلي، وخفضت بشكل كبير الوقت اللازم لإجراء الاسترداد والترقيات.

تعد Vanguard، وهي شركة أمريكية مسجلة تعمل في مجال الاستشارات الاستثمارية، أكبر مزود لصناديق الاستثمار المشتركة وثاني أكبر مزود للصناديق المتداولة في البورصة. تقوم Vanguard باستخدام Amazon EMR لتشغيل Apache Hive على مخزن بيانات S3. تُخزّن البيانات في S3 ويستخدم EMR تلك البيانات في إنشاء متجر Hive metastore. يحتوي المتجر Hive metastore على جميع البيانات الوصفية حول البيانات والجداول في مجموعة EMR، مما يسمح بتحليل البيانات بسهولة. يتيح Hive أيضًا للمحللين إجراء استعلامات SQL مخصصة على البيانات المخزنة في مخزن بيانات S3. إن الترحيل إلى مخزن بيانات S3 باستخدام Amazon EMR أدى إلى تمكين أكثر من 150 من محللي البيانات من تحقيق الكفاءة التشغيلية وخفض تكاليف EC2 وEMR بمقدار 600 ألف USD.

كيف تساعد AWS في Hive؟

يوفر Amazon EMR إطار Hadoop المُدار الأسهل والأسرع والأيسر كلفةً، مما يمكّن العملاء من معالجة كميات هائلة من البيانات عبر مثيلات EC2 القابلة للتوسع ديناميكيًا. يُمكن للعملاء أيضًا تشغيل الأطر الموزعة الشائعة الأخرى مثل Apache Hive وSpark وHBase وPresto وFlink في EMR. 

تعرف على المزيد حول Amazon EMR

ابدأ اليوم استخدام Apache Hive على AWS من خلال إنشاء حساب AWS مجاني.

الخطوات التالية على AWS

تحقّق من الموارد الإضافية المتعلقة بالمنتج
تسريع الابتكار مع أكبر مجموعة من خدمات التحليلات  
اشترك للحصول على حساب مجاني

تمتع بالوصول الفوري إلى الطبقة المجانية من AWS.

تسجيل الاشتراك 
ابدأ في التطوير في وحدة التحكم

بدء الإنشاء في وحدة إدارة تحكم AWS.

تسجيل الدخول