O que é reconhecimento de caractere óptico (OCR)?

Optical character recognition (OCR – reconhecimento de caractere óptico) é o processo que converte uma imagem de texto em um formato de texto legível por máquina. Por exemplo, se você digitalizar um formulário ou recibo, seu computador salvará a digitalização como um arquivo de imagem. Você não pode usar um editor de texto para editar, pesquisar nem contar as palavras no arquivo de imagem. No entanto, você pode usar o OCR para converter a imagem em um documento de texto com o conteúdo armazenado como dados de texto.

Por que o OCR é importante?

A maioria dos fluxos de trabalho de negócios envolve o recebimento de informações da mídia impressa. Formulários em papel, faturas, documentos legais digitalizados e contratos impressos fazem parte dos processos de negócios. É necessário muito tempo e espaço para armazenar e gerenciar esses grandes volumes de documentos. Embora o gerenciamento de documentos sem papel seja mais adequado, há desafios na digitalização do documento em uma imagem. O processo requer intervenção manual e pode ser tedioso e lento.

Além disso, a digitalização do conteúdo do documento cria arquivos de imagem com o texto oculto nele. O texto nas imagens não pode ser processado pelo software de processamento de texto da mesma forma que os documentos de texto. A tecnologia OCR resolve o problema convertendo imagens de texto em dados de texto, que podem ser analisados por outros softwares de negócios. Você pode usar os dados para realizar análises, otimizar operações, automatizar processos e melhorar a produtividade.

Como funciona o OCR?

O mecanismo ou software de OCR funciona de acordo com as seguintes etapas:

Aquisição de imagem

Um scanner lê documentos e os converte em dados binários. O software de OCR analisa a imagem digitalizada e classifica as áreas claras como plano de fundo e as áreas escuras como texto.

Pré-processamento

Primeiro, o software de OCR limpa a imagem e remove os erros para prepará-la para leitura. Estas são algumas das técnicas de limpeza:

  • Desinclinar ou inclinar ligeiramente o documento digitalizado para corrigir problemas de alinhamento durante a digitalização.
  • Remover manchas ou borrões de imagens digitais ou suavizar as bordas das imagens de texto.
  • Limpar caixas e linhas na imagem.
  • Reconhecimento de script para tecnologia OCR multilíngue

Reconhecimento de texto

Os dois principais tipos de algoritmo de OCR ou processos de software que um software de OCR usa para reconhecimento de texto são chamados de correspondência de padrões e extração de recursos.

Correspondência de padrões

A correspondência de padrões funciona com o isolamento de uma imagem de caractere, chamada de glifo, e a comparação dela com um glifo armazenado de forma semelhante. O reconhecimento de padrões funciona apenas se o glifo armazenado tem uma fonte e uma escala semelhantes ao glifo de entrada. Esse método funciona bem com imagens digitalizadas de documentos que foram digitados em uma fonte conhecida.

Extração de recursos

A extração de recursos divide ou decompõe os glifos em recursos como linhas, ciclos fechados, direção de linha e interseções de linha. Em seguida, usa esses recursos para encontrar a melhor correspondência ou o vizinho mais próximo entre seus vários glifos armazenados.

Pós-processamento

Após a análise, o sistema converte os dados de texto extraídos em um arquivo informatizado. Alguns sistemas de OCR podem criar arquivos PDF anotados que incluem versões anteriores e posteriores do documento digitalizado.

Quais são os tipos de OCR?

Os cientistas de dados classificam diferentes tipos de tecnologia OCR com base em seu uso e aplicação. A seguir, estão alguns exemplos.

Software simples de reconhecimento de caractere óptico

Um mecanismo de OCR simples funciona armazenando muitos padrões diferentes de fonte e imagem de texto como modelos. O software de OCR usa algoritmos de correspondência de padrões para comparar imagens de texto, caractere por caractere, com seu banco de dados interno. Se o sistema corresponde ao texto palavra por palavra, é chamado de reconhecimento óptico de palavras. Essa solução tem limitações, porque existem estilos de fonte e caligrafia praticamente ilimitados, e nem todos os tipos podem ser capturados e armazenados no banco de dados.

Software inteligente de reconhecimento de caracteres

Os sistemas modernos de OCR usam a tecnologia de intelligent character recognition (ICR – reconhecimento inteligente de caracteres) para ler o texto como as pessoas. Eles usam métodos avançados que treinam máquinas para se comportarem como humanos usando software de machine learning. Um sistema de machine learning chamado rede neural analisa o texto em vários níveis, processando a imagem repetidamente. Ele procura diferentes atributos de imagem, como curvas, linhas, interseções e ciclos, e combina os resultados de todos esses diferentes níveis de análise para obter o resultado final. Embora o ICR normalmente processe as imagens um caractere por vez, o processo é rápido, com resultados obtidos em segundos.

Reconhecimento inteligente de palavras

Os sistemas de reconhecimento inteligente de palavras funcionam com os mesmos princípios do ICR, mas processam imagens de palavras inteiras em vez de pré-processar as imagens em caracteres.

Reconhecimento óptico de marca

O reconhecimento óptico de marca identifica logotipos, marcas d'água e outros símbolos de texto em um documento.

Quais são os benefícios do OCR?

Os cientistas de dados classificam diferentes tipos de tecnologia OCR com base em seu uso e aplicação. A seguir, estão alguns exemplos.

Software simples de reconhecimento de caractere óptico

Um mecanismo de OCR simples funciona armazenando muitos padrões diferentes de fonte e imagem de texto como modelos. O software de OCR usa algoritmos de correspondência de padrões para comparar imagens de texto, caractere por caractere, com seu banco de dados interno. Se o sistema corresponde ao texto palavra por palavra, é chamado de reconhecimento óptico de palavras. Essa solução tem limitações, porque existem estilos de fonte e caligrafia praticamente ilimitados, e nem todos os tipos podem ser capturados e armazenados no banco de dados.

Software inteligente de reconhecimento de caracteres

Os sistemas modernos de OCR usam a tecnologia de intelligent character recognition (ICR – reconhecimento inteligente de caracteres) para ler o texto como as pessoas. Eles usam métodos avançados que treinam máquinas para se comportarem como humanos usando software de machine learning. Um sistema de machine learning chamado rede neural analisa o texto em vários níveis, processando a imagem repetidamente. Ele procura diferentes atributos de imagem, como curvas, linhas, interseções e ciclos, e combina os resultados de todos esses diferentes níveis de análise para obter o resultado final. Embora o ICR normalmente processe as imagens um caractere por vez, o processo é rápido, com resultados obtidos em segundos.

Reconhecimento inteligente de palavras

Os sistemas de reconhecimento inteligente de palavras funcionam com os mesmos princípios do ICR, mas processam imagens de palavras inteiras em vez de pré-processar as imagens em caracteres.

Reconhecimento óptico de marca

O reconhecimento óptico de marca identifica logotipos, marcas d'água e outros símbolos de texto em um documento.

Quais são os benefícios do OCR?

A seguir, estão os principais benefícios da tecnologia OCR.

Texto pesquisável

As empresas podem converter documentos novos e existentes em um arquivo de conhecimento totalmente pesquisável. Elas também podem processar o banco de dados de texto automaticamente usando software de análise de dados para processamento adicional de conhecimento.

Eficiência operacional

Você pode melhorar a eficiência usando o software de OCR para integrar automaticamente fluxos de trabalho de documentos e fluxos de trabalho digitais em sua empresa. Veja alguns exemplos do que o software de OCR pode fazer:

  • Digitalizar formulários preenchidos à mão para verificação, revisão, edição e análise automatizadas. Isso economiza o tempo necessário para o processamento manual de documentos e entrada de dados.
  • Encontrar os documentos necessários pesquisando rapidamente um termo no banco de dados para não precisar classificar manualmente os arquivos em uma caixa.
  • Converter notas manuscritas em textos e documentos editáveis.
     

Soluções de inteligência artificial

O OCR geralmente faz parte de outras soluções de inteligência artificial que as empresas podem implementar. Por exemplo, ele digitaliza e lê placas de carros autônomos e placas de trânsito, detecta logotipos de marcas em postagens de mídia social ou identifica embalagens de produtos em imagens publicitárias. Essa tecnologia de inteligência artificial ajuda as empresas a tomar melhores decisões operacionais e de marketing que reduzem despesas e melhoram a experiência do cliente.

Quais são os usos do OCR?

A seguir, estão alguns casos de uso de OCR comuns em vários setores.

Serviços bancários

O setor bancário usa o OCR para processar e verificar documentos de empréstimos, cheques de depósito e outras transações financeiras. Essa verificação melhorou a prevenção de fraudes e aumentou a segurança das transações. Por exemplo, a BlueVine é uma empresa de tecnologia financeira que oferece financiamento para pequenas e médias empresas. Ela usou o Amazon Textract, um serviço de OCR baseado na nuvem, para desenvolver um produto para pequenas empresas nos EUA acessarem rapidamente empréstimos do Paycheck Protection Program (PPP – Programa de Proteção de Pagamentos) como parte do pacote de auxílio devido à pandemia. O Amazon Textract processou e analisou automaticamente dezenas de milhares de formulários do PPP por dia para que a BlueVine pudesse ajudar milhares de empresas a obter recursos, salvando mais de 400 mil empregos.

Saúde

O setor de saúde usa o OCR para processar registros de pacientes, incluindo tratamentos, testes, registros hospitalares e pagamentos de seguros. O OCR ajuda a otimizar o fluxo de trabalho e a reduzir o trabalho manual em hospitais, mantendo os registros atualizados. Por exemplo, o nib Group fornece seguro médico e de saúde para mais de 1 milhão de australianos e recebe milhares de solicitações médicas por dia. Seus clientes podem tirar fotos da fatura médica e enviá-las pelo aplicativo móvel nib. O Amazon Textract processa essas imagens automaticamente para que a empresa possa aprovar solicitações com muito mais rapidez.

Logística

As empresas de logística usam o OCR para acompanhar etiquetas de pacotes, faturas, recibos e outros documentos com mais eficiência. Por exemplo, o Foresight Group usa o Amazon Textract para automatizar o processamento de faturas no SAP. A entrada manual desses documentos comerciais era demorada e propensa a erros, porque os funcionários da Foresight precisavam inserir os dados em vários sistemas contábeis. Com o Amazon Textract, o software da Foresight pode ler caracteres com mais precisão em muitos layouts diferentes, o que aumenta a eficiência dos negócios.

Como a AWS pode ajudar com o OCR?

A AWS oferece dois serviços que podem ajudar a implementar o OCR em seus negócios:

O Amazon Textract é um serviço de machine learning (ML) que usa OCR para extrair texto, manuscritos e dados automaticamente de documentos digitalizados, como PDFs. Ele pode ler milhares de documentos diferentes em vários layouts e formatos em alta velocidade. Ao extrair informações de documentos, o Amazon Textract retorna uma pontuação de confiança para todas as identificações, o que permite tomar decisões conscientes sobre como usar os resultados.

O Amazon Rekognition analisa milhões de imagens e vídeos em minutos e aprimora as tarefas de revisão visual humana com inteligência artificial. É possível usar as APIs do Amazon Rekognition para extrair texto de imagens e vídeos. Extraia texto distorcido e inclinado de imagens e vídeos de placas de rua, postagens de mídia social e embalagens de produtos.

Comece a usar o OCR na AWS criando uma conta da AWS hoje mesmo.

Próximas etapas na AWS