Qu'est-ce que la reconnaissance optique de caractères (OCR) ?
La reconnaissance optique de caractères (OCR) est le processus permettant de convertir une image de texte en format de texte lisible par une machine. Par exemple, si vous scannez un formulaire ou un ticket de caisse, votre ordinateur enregistre la numérisation en tant que fichier image. Vous ne pouvez pas utiliser un éditeur de texte pour modifier le fichier, y faire une recherche ou en compter les mots. Par contre, vous pouvez utiliser l'OCR pour convertir l'image en document texte, dont le contenu sera stocké en tant que données textuelles.
Pourquoi l'OCR est-elle importante ?
La plupart des flux de travail des entreprises impliquent la réception d'informations provenant de médias imprimés. Les formulaires papier, les factures, les documents juridiques numérisés et les contrats imprimés font tous partie des processus métier. Ces gros volumes de paperasse prennent beaucoup de temps et d'espace à stocker et à gérer. Bien que la gestion des documents sans papier soit la voie à suivre, la numérisation du document en image crée des difficultés. Ce processus nécessite une intervention manuelle et peut se révéler fastidieux et lent.
De plus, la numérisation de ce contenu documentaire crée des fichiers d'images dans lesquels le texte est caché. Le texte des images ne peut pas être traité par les logiciels de traitement de texte de la même manière que les documents texte. La technologie OCR résout le problème en convertissant les images de texte en données textuelles qui peuvent être analysées par d'autres logiciels métier. Vous pouvez ensuite utiliser ces données pour effectuer des analyses, rationaliser les opérations, automatiser les processus et améliorer la productivité.
Comment fonctionne l'OCR ?
Le moteur OCR ou le logiciel OCR fonctionne en effectuant les étapes suivantes :
Acquisition d'image
Un scanner lit les documents et les convertit en données binaires. Le logiciel OCR analyse l'image numérisée et classe les zones claires comme fond et les zones sombres comme texte.
Prétraitement
Le logiciel OCR nettoie d'abord l'image et prélève les erreurs pour la préparer à la lecture. Voici quelques-unes de ses techniques de nettoyage :
- Désalignement ou inclinaison légère du document numérisé pour résoudre les problèmes d'alignement pendant la numérisation.
- Déchatoiement ou prélèvement de toutes les taches de l'image numérique ou lissage des bords des images de texte.
- Nettoyage des cases et des lignes dans l'image.
- Reconnaissance d'écriture pour la technologie OCR multilingue
Reconnaissance de texte
Les deux principaux types d'algorithmes ou de processus logiciels qu'un logiciel OCR utilise pour la reconnaissance de texte sont appelés la correspondance de motifs et l'extraction de caractéristiques.
Correspondance de motifs
La correspondance de motifs fonctionne en isolant une image de caractère, appelée glyphe, et en la comparant à un glyphe stocké de manière similaire. La reconnaissance des formes ne fonctionne que si le glyphe stocké a une police et une échelle similaires au glyphe d'entrée. Cette méthode fonctionne bien avec les images numérisées de documents qui ont été tapés dans une police connue.
Extraction de caractéristiques
L'extraction de caractéristiques décompose les glyphes en caractéristiques telles que les lignes, les boucles fermées, la direction des lignes et les intersections de lignes. Il utilise ensuite ces caractéristiques pour trouver la meilleure correspondance ou le plus proche voisin parmi ses différents glyphes stockés.
Post-traitement
Après analyse, le système convertit les données textuelles extraites en un fichier informatisé. Certains systèmes OCR peuvent créer des fichiers PDF annotés qui comprennent les versions avant et après du document numérisé.
Quels sont les types d'OCR ?
Les scientifiques des données classent les différents types de technologies OCR en fonction de leur utilisation et de leur application. En voici quelques exemples :
Logiciel de reconnaissance optique simple de caractères
Un moteur OCR simple fonctionne en stockant de nombreux modèles différents de polices et d'images de texte comme modèles. Le logiciel OCR utilise des algorithmes de reconnaissance de motifs pour comparer les images de texte, caractère par caractère, à sa base de données interne. Si le système fait correspondre le texte mot par mot : il s'agit d'une reconnaissance optique de mots. Cette solution présente des limites, car il existe un nombre pratiquement illimité de polices et de styles d'écriture, et chaque type ne peut être capturé et stocké dans la base de données.
Logiciel de reconnaissance intelligente des caractères
Les systèmes OCR modernes utilisent la technologie de reconnaissance intelligente des caractères (ICR) pour lire le texte de la même manière que les humains. Ils utilisent des méthodes avancées qui entraînent les machines à se comporter comme des humains en utilisant des logiciels de machine learning. Un système de machine learning, appelé réseau neuronal, analyse le texte sur plusieurs niveaux en traitant l'image de manière répétée. Il recherche différents attributs de l'image, tels que les courbes, les lignes, les intersections et les boucles, et combine les résultats de tous ces différents niveaux d'analyse pour obtenir le résultat final. Même si l'ICR traite généralement les images un caractère à la fois, le processus est rapide, les résultats étant obtenus en quelques secondes.
Reconnaissance intelligente des mots
Les systèmes de reconnaissance intelligente des mots fonctionnent sur les mêmes principes que l'ICR, mais traitent des images de mots entiers au lieu de prétraiter les images en caractères.
Reconnaissance optique des marques
La reconnaissance optique des marques identifie les logos, les filigranes et autres symboles textuels dans un document.
Quels sont les avantages de l'OCR ?
Les scientifiques des données classent les différents types de technologies OCR en fonction de leur utilisation et de leur application. En voici quelques exemples :
Logiciel de reconnaissance optique simple de caractères
Un moteur OCR simple fonctionne en stockant de nombreux modèles différents de polices et d'images de texte comme modèles. Le logiciel OCR utilise des algorithmes de reconnaissance de motifs pour comparer les images de texte, caractère par caractère, à sa base de données interne. Si le système fait correspondre le texte mot par mot : il s'agit d'une reconnaissance optique de mots. Cette solution présente des limites, car il existe un nombre pratiquement illimité de polices et de styles d'écriture, et chaque type ne peut être capturé et stocké dans la base de données.
Logiciel de reconnaissance intelligente des caractères
Les systèmes OCR modernes utilisent la technologie de reconnaissance intelligente des caractères (ICR) pour lire le texte de la même manière que les humains. Ils utilisent des méthodes avancées qui entraînent les machines à se comporter comme des humains en utilisant des logiciels de machine learning. Un système de machine learning, appelé réseau neuronal, analyse le texte sur plusieurs niveaux en traitant l'image de manière répétée. Il recherche différents attributs de l'image, tels que les courbes, les lignes, les intersections et les boucles, et combine les résultats de tous ces différents niveaux d'analyse pour obtenir le résultat final. Même si l'ICR traite généralement les images un caractère à la fois, le processus est rapide, les résultats étant obtenus en quelques secondes.
Reconnaissance intelligente des mots
Les systèmes de reconnaissance intelligente des mots fonctionnent sur les mêmes principes que l'ICR, mais traitent des images de mots entiers au lieu de prétraiter les images en caractères.
Reconnaissance optique des marques
La reconnaissance optique des marques identifie les logos, les filigranes et autres symboles textuels dans un document.
Quels sont les avantages de l'OCR ?
Voici les principaux avantages de la technologie OCR :
Texte consultable
Les entreprises peuvent convertir leurs documents existants et nouveaux en une archive de connaissances entièrement consultable. Ils peuvent également traiter automatiquement la base de données textuelles en utilisant un logiciel d'analytique des données pour un traitement ultérieur des connaissances.
Efficacité opérationnelle
Vous pouvez améliorer votre efficacité en utilisant un logiciel OCR pour intégrer automatiquement les flux de documents et les flux numériques au cœur de votre activité. Voici quelques exemples des capacités d'un logiciel OCR :
- Numériser les formulaires remplis à la main pour une vérification, un examen, une édition et une analyse automatisés. Cela permet d'économiser le temps nécessaire au traitement manuel des documents et à la saisie des données.
- Trouver les documents requis en recherchant rapidement un terme dans la base de données, ce qui vous évite de devoir trier manuellement les dossiers dans une boîte.
- Convertir des notes manuscrites en textes et documents modifiables.
Solutions d'intelligence artificielle
L'OCR fait souvent partie d'autres solutions d'intelligence artificielle que les entreprises peuvent mettre en œuvre. Par exemple, il scanne et lit les plaques d'immatriculation et les panneaux routiers dans les voitures à conduite autonome, détecte les logos de marque dans les messages sur les médias sociaux ou identifie les emballages de produits dans les images publicitaires. Cette technologie d'intelligence artificielle aide les entreprises à prendre de meilleures décisions de marketing et opérationnelles qui réduisent les dépenses et améliorent l'expérience client.
À quoi sert l'OCR ?
Voici quelques cas d'utilisation courante de l'OCR dans divers secteurs :
Banque
Le secteur bancaire utilise l'OCR pour traiter et vérifier les documents de prêt, les chèques de dépôt et d'autres transactions financières. Cette vérification a permis d'améliorer la prévention des fraudes et de renforcer la sécurité des transactions. Par exemple, BlueVine est une société de technologie financière qui fournit des financements aux petites et moyennes entreprises. Elle a utilisé Amazon Textract, un service OCR basé sur le cloud, pour développer un produit permettant aux petites entreprises américaines d'accéder rapidement aux prêts du Paycheck Protection Program (PPP) dans le cadre du plan de relance COVID-19. Amazon Textract a traité et analysé automatiquement des dizaines de milliers de formulaires PPP par jour afin que BlueVine puisse aider plusieurs milliers d'entreprises à obtenir des fonds, épargnant ainsi plus de 400 000 tâches dans le processus.
Santé
Le secteur des soins de santé utilise l'OCR pour traiter les dossiers des patients, notamment les traitements, les tests, les dossiers hospitaliers et les paiements d'assurance. L'OCR permet de rationaliser le flux de travail et de réduire le travail manuel dans les hôpitaux tout en maintenant les dossiers à jour. Par exemple, le groupe nib fournit une assurance santé et médicale à plus d'un million d'Australiens et reçoit des milliers de demandes de remboursement de frais médicaux par jour. Ses clients peuvent prendre des photos de leur facture médicale et les soumettre via l'application mobile nib. Amazon Textract traite ces images automatiquement afin que la société puisse approuver les demandes d'indemnisation beaucoup plus rapidement.
Logistique
Les entreprises de logistique utilisent l'OCR pour suivre plus efficacement les étiquettes de colis, les factures, les reçus et autres documents. Par exemple, le groupe Foresight utilise Amazon Textract pour automatiser le traitement des factures dans SAP. La saisie manuelle de ces documents commerciaux prenait beaucoup de temps et était source d'erreurs, car les employés de Foresight devaient saisir les données dans plusieurs systèmes comptables. Avec Amazon Textract, le logiciel Foresight peut lire les caractères avec plus de précision sur de nombreuses mises en page différentes, ce qui augmente l'efficacité de l'entreprise.
Que peut apporter AWS en matière d'OCR ?
AWS propose deux services qui peuvent vous aider à mettre en œuvre l'OCR dans votre entreprise :
Amazon Textract est un service de machine learning (ML) qui utilise l’OCR pour extraire automatiquement le texte, l’écriture manuscrite et les données des documents numérisés tels que les PDF. Il peut lire à grande vitesse des milliers de documents différents dans de multiples mises en page et formats. Lorsqu'il extrait des informations des documents, Amazon Textract renvoie une note de confiance pour tout ce qu'il identifie afin que vous puissiez prendre des décisions éclairées sur l'utilisation des résultats.
Amazon Rekognition peut analyser des millions d'images et de vidéos en quelques minutes et augmenter les tâches humaines de révision visuelle grâce à l'intelligence artificielle. Vous pouvez utiliser les API Amazon Rekognition pour extraire du texte à partir d'images et de vidéos. Vous pouvez extraire du texte oblique et déformé à partir d'images et de vidéos de panneaux de signalisation, de messages sur les réseaux sociaux et d'emballages de produits.
Commencez à utiliser l'OCR sur AWS en créant un compte AWS aujourd'hui.