ما المقصود بالتعرف البصري على الحروف (OCR)؟
التعرف البصري على الحروف (OCR) هو عملية تحوّل صورة نص إلى تنسيق نصي قابل للقراءة آليًا. على سبيل المثال، إذا قمت بالمسح الضوئي لنموذج أو إيصال، فسيحفظ جهاز الكمبيوتر ناتج عملية المسح الضوئي كملف صورة. يتعذر عليك استخدام محرر نصوص في تحرير الكلمات الموجودة بملف الصورة أو البحث فيها أو عدها. ومع ذلك، يمكنك استخدام خاصية التعرف البصري على الحروف (OCR) في تحويل الصورة إلى مستند نصي مع تخزين محتوياته كبيانات نصية.
لماذا يُعد OCR مهمًا؟
تشمل معظم مهام سير عمل الأعمال تلقي معلومات من وسائط مطبوعة. تعد النماذج الورقية والفواتير والوثائق القانونية الممسوحة ضوئيًا والعقود المطبوعة جميعها جزءًا من عمليات الأعمال. تستغرق هذه الأحجام الكبيرة من الأعمال الورقية الكثير من الوقت والمساحة لتخزينها وإدارتها. على الرغم من أن إدارة الوثائق من دون أوراق تعد الحل الأمثل، يوجد مسح الوثيقة ضوئيًا إلى صورة بعض التحديات. تتطلب العملية تدخلًا يدويًا وقد تكون مملة وبطيئة.
بالإضافة إلى ذلك، تنشئ رقمنة محتوى الوثيقة هذه ملفات صور يختفي النص بداخلها. لا يمكن معالجة النص الموجود في الصور عن طريق برامج معالجة الكلمات كما هو الحال في الوثائق النصية. تحل تقنية OCR المشكلة عن طريق تحويل الصور النصية إلى بيانات نصية يمكن تحليلها عن طريق برامج أعمال أخرى. يمكنك حينها استخدام البيانات لتنفيذ التحليلات وتسهيل عمليات التشغيل وأتمتة العمليات وتحسين الإنتاجية.
كيف يعمل OCR؟
يعمل محرك OCR أو برنامج OCR باتباع الخطوات الآتية:
الحصول على الصورة
تقرأ الماسحة الضوئية الوثائق وتحولها إلى بيانات ثنائية. يحلل برنامج OCR الصورة الممسوحة ضوئيًا ويصنف المناطق الفاتحة كخلفية والمناطق الداكنة كنص.
ما قبل المعالجة
ينقح برنامج OCR الصورة ويزيل الأخطاء أولًا لتحضيرها للقراءة. هذه بعض أساليبه للتنقيح:
- إزالة انحراف الوثيقة الممسوحة ضوئيًا أو إمالتها قليلًا لإصلاح مشكلات المحاذاة خلال المسح الضوئي.
- إزالة الرقط أو إزالة أي بقع بالصورة الرقمية أو تسوية حواف الصور النصية.
- تنقيح المربعات والسطور في الصورة.
- التعرف على النص لتقنية OCR متعددة اللغات
التعرف على النص
يسمى النوعان الرئيسيان للوغاريتمات OCR أو للعمليات البرمجية التي يستخدمها برنامج OCR للتعرف على النص مطابقة الأنماط واستخراج الميزات.
مطابقة الأنماط
تعمل تقنية مطابقة الأنماط عبر عزل صورة حرف، تسمى صورة رمزية، ومقارنتها بصورة رمزية مخزنة مشابهة. لا يعمل التعرف على الأنماط إلا إذا كان للصورة الرمزية المخزنة خط ومقياس مشابهان للصورة الرمزية المدخلة. تنجح هذه الطريقة جيدًا مع صور الوثائق الممسوحة ضوئيًا التي تمت كتابتها بخط معروف.
استخراج الميزات
تقسم تقنية استخراج الميزات الصور الرمزية أو تجزئها إلى ميزات مثل أسطر وحلقات مغلقة واتجاه السطر وتقاطعات السطر. ثم تستخدم هذه الميزات لإيجاد أفضل مطابقة أو أقرب جوار بين الصور الرمزية المخزنة المختلفة.
بعد المعالجة
بعد التحليل، يحول النظام البيانات النصية المستخرجة إلى ملف محوسب. يمكن لبعض أنظمة OCR إنشاء ملفات PDF ذات تعليقات توضيحية تشمل الإصدارين السابق واللاحق للوثيقة الممسوحة ضوئيًا.
ما أنواع OCR؟
يصنف علماء البيانات أنواع تقنيات OCR المختلفة استنادًا إلى استخداماتها وتطبيقاتها. فيما يأتي بعض الأمثلة على ذلك:
البرامج البسيطة للتعرف البصري على الحروف
يعمل محرك OCR بسيط عبر تخزين عديد من أنماط الخطوط والصور النصية المختلفة كنماذج. يستخدم برنامج OCR لوغاريتمات مطابقة النمط لمقارنة الصور النصية، حرفًا بحرف، بقاعدة بياناته الداخلية. إذا طابق النظام النص كلمة بكلمة، فهذا يسمى التعرف البصري على الكلمات. يتضمن هذا الحل حدودًا نظرًا إلى وجود أنماط غير محدودة فعليًا للخط والكتابة اليدوية، ولا يمكن تسجيل كل نوع وتخزينه في قاعدة البيانات.
برامج التعرف الذكي على الحروف
تستخدم أنظمة OCR الحديثة تقنية التعرف الذكي على الحروف (ICR) لقراءة النص بطريقة البشر ذاتها. حيث تستخدم طرق متقدمة تدرب الآلات لتتصرف كالبشر باستخدام برامج التعلم الآلي. يسمى أي نظام تعلم آلي بالشبكات العصبونية حيث يحلل النص على عدة مستويات، ويعالج الصورة بشكل متكرر. يبحث عن سمات مختلفة للصورة، كالمنحنيات والسطور والتقاطعات والحلقات، ويجمع نتائج كل تلك المستويات المختلفة للحصول على النتيجة النهائية. على الرغم من أن ICR يعالج الصور حرفًا بحرف عادةً، فإن المعالجة تكون سريعة، حيث يتم الحصول على النتائج في غضون ثواني.
التعرف الذكي على الكلمات
تتبع أنظمة التعرف الذكي على الكلمات مبادئ ICR ذاتها، لكنها تعالج صور كلمات كاملة بدلًا من معالجة الصور سابقًا إلى حروف.
التعرف البصري على العلامات
يحدد التعرف البصري على العلامات الشعارات والعلامات المائية والرموز النصية الأخرى في وثيقة ما.
ما فوائد OCR؟
يصنف علماء البيانات أنواع تقنيات OCR المختلفة استنادًا إلى استخداماتها وتطبيقاتها. فيما يأتي بعض الأمثلة على ذلك:
البرامج البسيطة للتعرف البصري على الحروف
يعمل محرك OCR بسيط عبر تخزين عديد من أنماط الخطوط والصور النصية المختلفة كنماذج. يستخدم برنامج OCR لوغاريتمات مطابقة النمط لمقارنة الصور النصية، حرفًا بحرف، بقاعدة بياناته الداخلية. إذا طابق النظام النص كلمة بكلمة، فهذا يسمى التعرف البصري على الكلمات. يتضمن هذا الحل حدودًا نظرًا إلى وجود أنماط غير محدودة فعليًا للخط والكتابة اليدوية، ولا يمكن تسجيل كل نوع وتخزينه في قاعدة البيانات.
برامج التعرف الذكي على الحروف
تستخدم أنظمة OCR الحديثة تقنية التعرف الذكي على الحروف (ICR) لقراءة النص بطريقة البشر ذاتها. حيث تستخدم طرق متقدمة تدرب الآلات لتتصرف كالبشر باستخدام برامج التعلم الآلي. يسمى أي نظام تعلم آلي بالشبكات العصبونية حيث يحلل النص على عدة مستويات، ويعالج الصورة بشكل متكرر. يبحث عن سمات مختلفة للصورة، كالمنحنيات والسطور والتقاطعات والحلقات، ويجمع نتائج كل تلك المستويات المختلفة للحصول على النتيجة النهائية. على الرغم من أن ICR يعالج الصور حرفًا بحرف عادةً، فإن المعالجة تكون سريعة، حيث يتم الحصول على النتائج في غضون ثواني.
التعرف الذكي على الكلمات
تتبع أنظمة التعرف الذكي على الكلمات مبادئ ICR ذاتها، لكنها تعالج صور كلمات كاملة بدلًا من معالجة الصور سابقًا إلى حروف.
التعرف البصري على العلامات
يحدد التعرف البصري على العلامات الشعارات والعلامات المائية والرموز النصية الأخرى في وثيقة ما.
ما فوائد OCR؟
فيما يلي فوائد تقنية OCR الرئيسية:
نص قابل للبحث
يمكن للشركات تحويل وثائقها الحالية والجديدة إلى أرشيف معرفي قابل للبحث بالكامل. كما يمكنها معالجة قاعدة البيانات النصية تلقائيًا باستخدام برامج تحليلات البيانات لمعالجة إضافية للمعلومات.
الكفاءة التشغيلية
يمكنك تحسين الكفاءة باستخدام برنامج OCR لتضمين مهام سير عمل الوثائق ومهام سير العمل الرقمية داخل شركتك تلقائيًا. إليك بعض الأمثلة لما يمكن لبرنامج OCR فعله:
- إجراء مسح ضوئي للنماذج المعبأة يدويًا لعمليات التحقق والمراجعات والتحرير والتحليل تلقائيًا. يوفر ذلك الوقت المطلوب لمعالجة الوثيقة وإدخال البيانات يدويًا.
- العثور على الوثيقة المطلوبة بالبحث سريعًا عن مصطلح في قاعدة البيانات بحيث لا تضطر إلى الفرز اليدوي خلال الملفات الموجودة في صندوق.
- تحويل الملاحظات المكتوبة يدويًا إلى نصوص ووثائق قابلة للتحرير.
حلول الذكاء الاصطناعي
يعد OCR عادةً جزءًا من حلول الذكاء الاصطناعي التي قد تطبقها الشركات. على سبيل المثال، يجري مسحًا ضوئيًا للوحات الأرقام ولافتات الطرق ويقرؤها في السيارات ذاتية القيادة أو يكتشف شعارات العلامات الجارية في منشورات وسائل التواصل الاجتماعي أو يتعرف على عبوة أحد المنتجات في الصور الإعلانية. تساعد تقنية الذكاء الاصطناعي هذه الشركات في اتخاذ قرارات تسويقية وتشغيلية أفضل تقلل التكاليف وتحسِّن تجربة العميل.
فيما يستخدم OCR؟
فيما يأتي بعض حالات استخدام OCR الشائعة في عديد من الصناعات:
الخدمات المصرفية
تستخدم صناعة الخدمات المصرفية OCR لمعالجة الأعمال الورقية لوثائق القروض وشيكات الإيداع والمعاملات المالية الأخرى والتحقق منها. أدى هذا التحقق إلى تحسين منع الاحتيال وعزز أمان المعاملات. على سبيل المثال، تعد BlueVine شركة تقنيات مالية توفر تمويلاً للشركات الصغيرة والمتوسطة الحجم. استخدمت Amazon Textract، خدمة OCR قائمة على السحابة، لتطوير منتج للشركات الصغيرة في الولايات المتحدة للوصول السريع إلى قروض برنامج حماية الرواتب (PPP) كجزء من حزمة الإعانة التحفيزية خلال جائحة كوفيد-19. عالجت Amazon Textract عشرات الآلاف من نماذج PPP يوميًا وحللتها تلقائيًا بحيث تتمكن BlueVine من مساعدة عدة آلاف من الشركات على الحصول على تمويل، ما أدى إلى توفير أكثر من 400,000 وظيفة خلال هذه العملية.
الرعاية الصحية
تستخدم صناعة الرعاية الصحية OCR لمعالجة سجلات المرضى بما في ذلك العلاجات والاختبارات وسجلات المستشفى ومدفوعات التأمين. يساعد OCR على تسهيل سير العمل وتقليل العمل اليدوي في المستشفيات والمحافظة على السجلات محدثة. كمثال، توفر nib Group تأمينًا صحيًا وطبيًا لأكثر من مليون أسترالي وتستقبل آلاف المطالبات الطبية يوميًا. يمكن لعملائها التقاط صور لفاتورتهم الطبية وإرسالها عبر تطبيق nib للهاتف المحمول. تعالج Amazon Textract هذه الصور تلقائيًا بحيث يمكن للشركة اعتماد هذه المطالبات بشكل أسرع بكثير.
الخدمات اللوجستية
تستخدم شركات الخدمات اللوجستية تقنية OCR لمتابعة ملصقات الطرود والفواتير والإيصالات والوثائق الأخرى بكفاءة أكبر. على سبيل المثال، تستخدم Foresight Group خدمة Amazon Textract لأتمتة معالجة الفواتير في SAP. كان الإدخال اليدوي لوثائق الأعمال تلك مستهلكًا للوقت ومعرضًا للخطأ لأن موظفي Foresight كان يجب عليهم إدخال البيانات في عدة أنظمة محاسبة. باستخدام Amazon Textract، يمكن لبرنامج Foresight قراءة الحروف بدقة أكبر عبر عديد من التخطيطات المختلفة، ما يزيد كفاءة الشركة.
كيف يمكن لخدمات AWS المساعدة من خلال OCR؟
تعرض AWS خدمتين يمكنهما مساعدتك في تطبيق OCR في شركتك:
Amazon Textract هي خدمة تعلّم الآلة (ML) تستخدم OCR لاستخراج النصوص والكتابة اليدوية والبيانات تلقائيًا من الوثائق الممسوحة ضوئيًا مثل ملفات PDF. يمكنها قراءة آلاف الوثائق المختلفة بعدة تخطيطات وصيغ بسرعة عالية. عندما تستخرج المعلومات من الوثائق، ترجع خدمة Amazon Textract درجة ثقة لكل ما تتعرف عليه بحيث يمكنك اتخاذ قرارات مستنيرة بشأن الكيفية التي تريد اتباعها في استخدام النتائج.
يمكن لخدمة Amazon Rekognition تحليل ملايين الصور ومقاطع الفيديو في غضون دقائق ودعم مهام المراجعة البصرية البشرية باستخدام الذكاء الاصطناعي. يمكنك استخدام واجهات برمجة تطبيقات خدمة Amazon Rekognition لاستخراج النص من الصور ومقاطع الفيديو معًا. يمكنك استخراج النصوص المنحرفة والمشوهة من الصور ومقاطع الفيديو الخاصة بلافتات الشوارع ومنشورات وسائل التواصل الاجتماعي وعبوات المنتجات.
يمكنك بدء استخدام OCR على AWS عن طريق إنشاء حساب AWS اليوم.