ما المقصود بالتعرف البصري على الحروف (OCR)؟

إنشاء حساب AWS

ما المقصود بالتعرف البصري على الحروف (OCR)؟

التعرف البصري على الحروف (OCR) هو عملية تحوّل صورة نص إلى تنسيق نصي قابل للقراءة آليًا. على سبيل المثال، إذا قمت بالمسح الضوئي لنموذج أو إيصال، فسيحفظ جهاز الكمبيوتر ناتج عملية المسح الضوئي كملف صورة. يتعذر عليك استخدام محرر نصوص في تحرير الكلمات الموجودة بملف الصورة أو البحث فيها أو عدها. ومع ذلك، يمكنك استخدام خاصية التعرف البصري على الحروف (OCR) في تحويل الصورة إلى مستند نصي مع تخزين محتوياته كبيانات نصية.

لماذا يُعد OCR مهمًا؟

تشمل معظم مهام سير عمل الأعمال تلقي معلومات من وسائط مطبوعة. تعد النماذج الورقية والفواتير والوثائق القانونية الممسوحة ضوئيًا والعقود المطبوعة جميعها جزءًا من عمليات الأعمال. تستغرق هذه الأحجام الكبيرة من الأعمال الورقية الكثير من الوقت والمساحة لتخزينها وإدارتها. على الرغم من أن إدارة الوثائق من دون أوراق تعد الحل الأمثل، يوجد مسح الوثيقة ضوئيًا إلى صورة بعض التحديات. تتطلب العملية تدخلًا يدويًا وقد تكون مملة وبطيئة.

بالإضافة إلى ذلك، تنشئ رقمنة محتوى الوثيقة هذه ملفات صور يختفي النص بداخلها. لا يمكن معالجة النص الموجود في الصور عن طريق برامج معالجة الكلمات كما هو الحال في الوثائق النصية. تحل تقنية OCR المشكلة عن طريق تحويل الصور النصية إلى بيانات نصية يمكن تحليلها عن طريق برامج أعمال أخرى. يمكنك حينها استخدام البيانات لتنفيذ التحليلات وتسهيل عمليات التشغيل وأتمتة العمليات وتحسين الإنتاجية.

ما فوائد OCR؟

فيما يلي فوائد تقنية OCR الرئيسية:

نص قابل للبحث

يمكن للشركات تحويل وثائقها الحالية والجديدة إلى أرشيف معرفي قابل للبحث بالكامل. كما يمكنها معالجة قاعدة البيانات النصية تلقائيًا باستخدام برامج تحليلات البيانات لمعالجة إضافية للمعلومات.

الكفاءة التشغيلية

يمكنك تحسين الكفاءة باستخدام برنامج OCR لتضمين مهام سير عمل الوثائق ومهام سير العمل الرقمية داخل شركتك تلقائيًا. إليك بعض الأمثلة لما يمكن لبرنامج OCR فعله:

إجراء مسح ضوئي للنماذج المعبأة يدويًا لعمليات التحقق والمراجعات والتحرير والتحليل تلقائيًا. يوفر ذلك الوقت المطلوب لمعالجة الوثيقة وإدخال البيانات يدويًا.
العثور على الوثيقة المطلوبة بالبحث سريعًا عن مصطلح في قاعدة البيانات بحيث لا تضطر إلى الفرز اليدوي خلال الملفات الموجودة في صندوق.
تحويل الملاحظات المكتوبة يدويًا إلى نصوص ووثائق قابلة للتحرير.

حلول الذكاء الاصطناعي

يعد OCR عادةً جزءًا من حلول الذكاء الاصطناعي التي قد تطبقها الشركات. على سبيل المثال، يجري مسحًا ضوئيًا للوحات الأرقام ولافتات الطرق ويقرؤها في السيارات ذاتية القيادة أو يكتشف شعارات العلامات الجارية في منشورات وسائل التواصل الاجتماعي أو يتعرف على عبوة أحد المنتجات في الصور الإعلانية. تساعد تقنية الذكاء الاصطناعي هذه الشركات في اتخاذ قرارات تسويقية وتشغيلية أفضل تقلل التكاليف وتحسِّن تجربة العميل.

ما تاريخ تطور تقنية التعرف الضوئي على الحروف (OCR) وكيف تطورت عبر الزمن؟

من أوائل التطورات في مجال التعرف الضوئي على الحروف (OCR) جهاز Emanuel Goldberg في عشرينيات القرن الماضي، حيث كان بإمكانه قراءة الأحرف وتحويلها إلى شيفرة برقية. شكّل هذا التطور الأساس لفكرة القراءة باستخدام الآلات.

الاعتماد المبكر

خلال خمسينيات القرن الماضي، أخذت تقنية التعرف الضوئي على الحروف (OCR) شكلها كحل تجاري. عملت شركات مثل RCA على تطوير أنظمة قادرة على قراءة خطوط معينة لاستخدامها في التطبيقات المصرفية والبريدية. تم توظيف هذه الأنظمة لأتمتة عمليات معالجة الشيكات وفرز البريد، وهي تطبيقات ضيقة النطاق لكنها أحدثت أثرًا ملحوظًا.

في ستينيات القرن الماضي، جرى ابتكار خطي OCR-A وOCR-B بحيث يمكن قراءتهما بسهولة من قبل البشر والأنظمة الآلية. أدى إدخال هذه الخطوط إلى تعزيز اتساق استخدام تقنية التعرف الضوئي على الحروف (OCR) في مجالات مثل القطاع المالي والجهات الحكومية.

التوسع

أسهمت التطورات في الماسحات الضوئية وخوارزميات البرمجيات في جعل تقنية التعرف الضوئي على الحروف (OCR) قابلة للتطبيق في الاستخدامات اليومية للأعمال. تمكنت البرامج في بداياتها من مسح المستندات الورقية المطبوعة ضوئيًا وتحويلها إلى نصوص قابلة للتعديل، لكن بدقة محدودة.

خلال العقد الأول من الألفية 2000، سمحت الشبكات العصبية وتقنيات تعلم الآلة الناشئة لتقنية التعرف الضوئي على الحروف (OCR) بالتطور لتتعامل مع أكثر من مجرد خطوط أو قوالب ثابتة. باتت الأنظمة الحديثة اليوم قادرة على قراءة النصوص اليدوية والتعامل مع عمليات المسح الرديئة الجودة والتخطيطات المعقدة بمستويات دقة أكبر بكثير.

الوضع الحالي

في الوقت الحاضر، انتقلت تقنية التعرف الضوئي على الحروف (OCR) من كونها أداة محدودة الاستخدام إلى ركيزة أساسية في مسيرة التحول الرقمي. أصبحت جزءًا مدمجًا في مختلف المجالات، بدءًا من تطبيقات الهواتف المحمولة وحتى منصات أتمتة الأعمال المؤسسية. تدعم التقنية عدة لغات وتتمكن من معالجة التقاط الصور الفوري مع مراعاة السياق. تُعد اليوم عنصرًا محوريًا ضمن أنظمة الأتمتة الذكية.

ما أبرز سيناريوهات استخدام تقنية التعرف الضوئي على الحروف (OCR) في معالجة المستندات؟

يُعد التعرف الضوئي على الحروف (OCR) جزءًا أساسيًا من مسارات معالجة المستندات في المؤسسات. فيما يلي بعض حالات الاستخدام التي يمكن أخذها بعين الاعتبار.

البحث الذكي داخل أرشيفات المستندات

تتيح تقنية التعرف الضوئي على الحروف (OCR) إنشاء أرشيفات رقمية يمكن البحث فيها عبر استخراج النصوص من المستندات المصورة وملفات PDF. بعد التعرّف على النص، يصبح بالإمكان فهرسته والاستفادة منه في أنظمة البحث التي تعتمد على الذكاء الاصطناعي. يتيح ذلك للمستخدمين العثور بسرعة وبدقة على الملفات المطلوبة ضمن كميات ضخمة من الملفات، دون الحاجة إلى خطوات إضافية لتصنيف المستندات. على سبيل المثال، عند البحث عن اسم عميل معين، ستظهر جميع أوامر الدفع والفواتير والنماذج التي كانت قد قُدمت ورقيًا.

يمكن للشركات تحويل وثائقها المطبوعة الحالية والجديدة إلى أرشيف معرفي قابل للبحث بالكامل. كما يمكنها معالجة قاعدة البيانات النصية تلقائيًا باستخدام برامج تحليلات البيانات لمعالجة إضافية للمعلومات.

معالجة اللغة الطبيعية

يقوم نظام التعرف الضوئي على الحروف (OCR) بالتعرّف على النصوص واستخراجها على مستوى الكلمات أو الأسطر أو خلايا الجداول، مما يمنح تحكمًا أوسع في تهيئة المحتوى لاستخدامه في مهام معالجة اللغة الطبيعية (NLP) مثل تصنيف المستندات، تلخيصها، تحليل المشاعر، نمذجة الموضوعات، والتعرف على الكيانات، وغيرها. على سبيل المثال، يحتاج التلخيص إلى استخراج النصوص في صورة فقرات، في حين أن التعرف على الكيانات قد يتطلب استخراج النصوص على هيئة أزواج المفتاح-القيمة كما في ملفات JSON.

تنظيم البيانات وفق معايير موحّدة

تشمل مسارات معالجة المستندات في كثير من الأحيان بيانات غير منظمة قادمة من صيغ متعددة وقطاعات متنوعة. يسهّل التعرف الضوئي على الحروف (OCR) عملية توحيد البيانات عن طريق استخراج النصوص والجداول من مستندات مختلفة تشمل البيانات المالية، الملاحظات الطبية السريرية، والتقارير التقنية. يتيح ذلك سرعة أكبر في المعالجة واتساقًا أعلى في التعامل مع البيانات عبر مختلف الأنظمة.

أتمتة عمليات معالجة النماذج

تؤدي تقنية التعرف الضوئي على الحروف (OCR) دورًا محوريًا في أتمتة عمليات معالجة النماذج. تستطيع هذه التقنية التعرّف على الحقول واستخراج البيانات المهيكلة من نماذج متعددة، بما يمكّن المؤسسات من إدماج هذه المعلومات مباشرة في قواعد البيانات دون الحاجة إلى إدخال يدوي.

ميزة التطبيق

يمكن تضمين إمكانات التعرف الضوئي على الحروف (OCR) داخل تطبيقات الأعمال، مما يسمح للمستخدمين باستخراج النصوص بشكل فوري ودون الحاجة إلى خطوات إضافية. يساهم هذا في تخفيف أعباء التحليل، إذ يتم جمع البيانات بشكل سليم من المصدر مباشرة.

ما هي طرق استخدام تقنية خاصية التعرف الضوئي على الحروف (OCR) في قطاعات الأعمال المتنوعة؟

فيما يأتي بعض حالات استخدام OCR الشائعة في عديد من الصناعات:

الخدمات المصرفية

تستخدم صناعة الخدمات المصرفية OCR لمعالجة الأعمال الورقية لوثائق القروض وشيكات الإيداع والمعاملات المالية الأخرى والتحقق منها. أدى هذا التحقق إلى تحسين منع الاحتيال وعزز أمان المعاملات. على سبيل المثال، تعد BlueVine شركة تقنيات مالية توفر تمويلاً للشركات الصغيرة والمتوسطة الحجم. استخدمت Amazon Textract، خدمة OCR قائمة على السحابة، لتطوير منتج للشركات الصغيرة في الولايات المتحدة للوصول السريع إلى قروض برنامج حماية الرواتب (PPP) كجزء من حزمة الإعانة التحفيزية خلال جائحة COVID-19. عالجت Amazon Textract عشرات الآلاف من نماذج PPP يوميًا وحللتها تلقائيًا بحيث تتمكن BlueVine من مساعدة عدة آلاف من الشركات على الحصول على تمويل، ما أدى إلى توفير أكثر من 400000 وظيفة خلال هذه العملية.

الرعاية الصحية

تستخدم صناعة الرعاية الصحية OCR لمعالجة سجلات المرضى بما في ذلك العلاجات والاختبارات وسجلات المستشفى ومدفوعات التأمين. يساعد OCR على تسهيل سير العمل وتقليل العمل اليدوي في المستشفيات والمحافظة على السجلات محدثة. كمثال، توفر nib Group تأمينًا صحيًا وطبيًا لأكثر من مليون أسترالي وتستقبل آلاف المطالبات الطبية يوميًا. يمكن لعملائها التقاط صور لفاتورتهم الطبية وإرسالها عبر تطبيق nib للهاتف المحمول. تعالج Amazon Textract هذه الصور تلقائيًا بحيث يمكن للشركة اعتماد هذه المطالبات بشكل أسرع بكثير.

الخدمات اللوجستية

تستخدم شركات الخدمات اللوجستية تقنية OCR لمتابعة ملصقات الطرود والفواتير والإيصالات والوثائق الأخرى بكفاءة أكبر. على سبيل المثال، تستخدم Foresight Group خدمة Amazon Textract لأتمتة معالجة الفواتير في SAP. كان الإدخال اليدوي لوثائق الأعمال تلك مستهلكًا للوقت ومعرضًا للخطأ لأن موظفي Foresight كان يجب عليهم إدخال البيانات في عدة أنظمة محاسبة. باستخدام Amazon Textract، يمكن لبرنامج Foresight قراءة الحروف بدقة أكبر عبر عديد من التخطيطات المختلفة، ما يزيد كفاءة الشركة.

كيف يعمل OCR؟

يعمل محرك OCR أو برنامج OCR باتباع الخطوات الآتية:

الحصول على الصورة

تقرأ الماسحة الضوئية الوثائق وتحولها إلى بيانات ثنائية. يحلل برنامج OCR الصورة الممسوحة ضوئيًا ويصنف المناطق الفاتحة كخلفية والمناطق الداكنة كنص.

ما قبل المعالجة

ينقح برنامج OCR الصورة ويزيل الأخطاء أولًا لتحضيرها للقراءة. هذه بعض أساليبه للتنقيح:

إزالة انحراف الوثيقة الممسوحة ضوئيًا أو إمالتها قليلًا لإصلاح مشكلات المحاذاة خلال المسح الضوئي.
إزالة الرقط أو إزالة أي بقع بالصورة الرقمية أو تسوية حواف الصور النصية.
تنقيح المربعات والسطور في الصورة.
التعرف على النص لتقنية OCR متعددة اللغات

التعرف على النص

يسمى النوعان الرئيسيان للوغاريتمات OCR أو للعمليات البرمجية التي يستخدمها برنامج OCR للتعرف على النص مطابقة الأنماط واستخراج الميزات.

مطابقة الأنماط

تعمل تقنية مطابقة الأنماط عبر عزل صورة حرف، تسمى صورة رمزية، ومقارنتها بصورة رمزية مخزنة مشابهة. لا يعمل التعرف على الأنماط إلا إذا كان للصورة الرمزية المخزنة خط ومقياس مشابهان للصورة الرمزية المدخلة. تنجح هذه الطريقة جيدًا مع صور الوثائق الممسوحة ضوئيًا التي تمت كتابتها بخط معروف.

استخراج الميزات

تقسم تقنية استخراج الميزات الصور الرمزية أو تجزئها إلى ميزات مثل أسطر وحلقات مغلقة واتجاه السطر وتقاطعات السطر. ثم تستخدم هذه الميزات لإيجاد أفضل مطابقة أو أقرب جوار بين الصور الرمزية المخزنة المختلفة.

بعد المعالجة

يقوم النظام بعد التحليل بتحويل النصوص المستخرجة إلى مستندات نصية يمكن للآلة قراءتها ومعالجتها. يمكن لبعض أنظمة OCR إنشاء ملفات PDF ذات تعليقات توضيحية تشمل الإصدارين السابق واللاحق للوثيقة الممسوحة ضوئيًا.

ما أنواع OCR؟

يصنف علماء البيانات أنواع تقنيات OCR المختلفة استنادًا إلى استخداماتها وتطبيقاتها. فيما يأتي بعض الأمثلة على ذلك:

البرامج البسيطة للتعرف البصري على الحروف

يعمل محرك OCR بسيط عبر تخزين عديد من أنماط الخطوط والصور النصية المختلفة كنماذج. يستخدم برنامج OCR لوغاريتمات مطابقة النمط لمقارنة الصور النصية، حرفًا بحرف، بقاعدة بياناته الداخلية. إذا طابق النظام النص كلمة بكلمة، فهذا يسمى التعرف البصري على الكلمات. يتضمن هذا الحل حدودًا نظرًا إلى وجود أنماط غير محدودة فعليًا للخط والكتابة اليدوية، ولا يمكن تسجيل كل نوع وتخزينه في قاعدة البيانات.

برامج التعرف الذكي على الحروف

تستخدم أنظمة OCR الحديثة تقنية التعرف الذكي على الحروف (ICR) لقراءة النص بطريقة البشر ذاتها. حيث تستخدم طرق متقدمة تدرب الآلات لتتصرف كالبشر باستخدام برامج التعلم الآلي. يسمى أي نظام تعلم آلي بالشبكات العصبونية حيث يحلل النص على عدة مستويات، ويعالج الصورة بشكل متكرر. يبحث عن سمات مختلفة للصورة، كالمنحنيات والسطور والتقاطعات والحلقات، ويجمع نتائج كل تلك المستويات المختلفة للحصول على النتيجة النهائية. على الرغم من أن ICR يعالج الصور حرفًا بحرف عادةً، فإن المعالجة تكون سريعة، حيث يتم الحصول على النتائج في غضون ثواني.

التعرف الذكي على الكلمات

تتبع أنظمة التعرف الذكي على الكلمات مبادئ ICR ذاتها، لكنها تعالج صور كلمات كاملة بدلًا من معالجة الصور سابقًا إلى حروف.

التعرف البصري على العلامات

يحدد التعرف البصري على العلامات الشعارات والعلامات المائية والرموز النصية الأخرى في وثيقة ما.

كيف يمكن لخدمات AWS المساعدة من خلال OCR؟

تعرض AWS خدمتين يمكنهما مساعدتك في تطبيق OCR في شركتك:

Amazon Textract هي خدمة تعلّم الآلة (ML) تستخدم OCR لاستخراج النصوص والكتابة اليدوية والبيانات تلقائيًا من الوثائق الممسوحة ضوئيًا مثل ملفات PDF. يمكنها قراءة آلاف الوثائق المختلفة بعدة تخطيطات وصيغ بسرعة عالية. عندما تستخرج المعلومات من الوثائق، ترجع خدمة Amazon Textract درجة ثقة لكل ما تتعرف عليه بحيث يمكنك اتخاذ قرارات مستنيرة بشأن الكيفية التي تريد اتباعها في استخدام النتائج.

يمكن لخدمة Amazon Rekognition تحليل ملايين الصور ومقاطع الفيديو في غضون دقائق ودعم مهام المراجعة البصرية البشرية باستخدام الذكاء الاصطناعي. يمكنك استخدام واجهات برمجة تطبيقات خدمة Amazon Rekognition لاستخراج النص من الصور ومقاطع الفيديو معًا. يمكنك استخراج النصوص المنحرفة والمشوهة من الصور ومقاطع الفيديو الخاصة بلافتات الشوارع ومنشورات وسائل التواصل الاجتماعي وعبوات المنتجات.

يمكنك بدء استخدام OCR على AWS عن طريق إنشاء حساب AWS اليوم.

الخطوات التالية على AWS

تحقّق من الموارد الإضافية المتعلقة بالمنتج

تعرّف على المزيد

تسجيل الاشتراك للحصول على حساب مجاني

الوصول على الفور إلى الطبقة المجانية من AWS.

سجّل

بدء التطوير في وحدة التحكم

ابدأ الإنشاء باستخدام AWS في وحدة إدارة تحكم AWS.

سجِّل الدخول

ما المقصود بالتعرف البصري على الحروف (OCR)؟