O que é a visão por computador?
A visão computacional é uma tecnologia que as máquinas usam para reconhecer imagens automaticamente e descrevê-las com precisão e eficiência. Hoje, os sistemas de computador têm acesso a um grande volume de imagens e dados de vídeo provenientes ou criados por smartphones, câmeras de trânsito, sistemas de segurança e outros dispositivos. As aplicações de visão computacional usam inteligência artificial e machine learning (IA/ML) para processar esses dados com precisão para identificação de objetos e reconhecimento facial, bem como classificação, recomendação, monitoramento e detecção.
Por que a visão computacional é importante?
Embora a tecnologia de processamento de informações visuais já exista há algum tempo, grande parte do processo exigia intervenção humana, era demorado e propenso a erros. Por exemplo, a implementação de um sistema de reconhecimento facial no passado exigia que os desenvolvedores marcassem manualmente milhares de imagens com pontos de dados importantes, como a largura da ponte nasal e a distância entre os olhos. A automatização dessas tarefas exigia uma grande capacidade computacional porque os dados de imagem são não estruturados e a organização deles pelos computadores é complexa. Portanto, as aplicações de visão eram caras e inacessíveis para a maioria das organizações.
Hoje, o progresso no campo, combinado com um aumento considerável no capacidade computacional, melhorou a escala e a precisão do processamento de dados de imagem. Os sistemas de visão computacional baseados em recursos de computação em nuvem agora estão acessíveis a todos. Qualquer organização pode usar a tecnologia para verificação de identidade, moderação de conteúdo, análise de streaming de vídeo, detecção de falhas e muito mais.
Casos de uso
Como funciona a visão computacional?
Os sistemas de visão computacional usam a tecnologia de inteligência artificial (IA) para imitar as capacidades do cérebro humano que são responsáveis pelo reconhecimento e classificação de objetos. Cientistas da computação treinam computadores para reconhecer dados visuais inserindo grandes quantidades de informações. Os algoritmos de machine learning (ML) identificam padrões comuns nessas imagens ou vídeos e aplicam esse conhecimento para identificar imagens desconhecidas com precisão. Por exemplo, se os computadores processarem milhões de imagens de carros, eles começarão a criar padrões de identidade que possam detectar com precisão um veículo em uma imagem. A visão computacional usa tecnologias como as apresentadas abaixo.
Aprendizado profundo
O aprendizado profundo é um tipo de ML que usa redes neurais. As redes neurais de aprendizado profundo são compostas de muitas camadas de módulos de software chamados neurônios artificiais que trabalham juntos dentro do computador. Elas usam cálculos matemáticos para processar automaticamente diferentes aspectos dos dados da imagem e desenvolver gradualmente uma compreensão combinada da imagem.
Redes neurais convolucionais
As redes neurais convolucionais (CNNs) utilizam um sistema de rotulagem para categorizar dados visuais e compreender toda a imagem. Elas analisam imagens como pixels e atribuem a cada pixel um valor de rótulo. O valor é inserido para realizar uma operação matemática chamada convolução e fazer previsões sobre a imagem. Como um humano tentando reconhecer um objeto à distância, a CNN primeiro identifica contornos e formas simples antes de preencher detalhes adicionais, como cor, formas internas e textura. Por fim, ela repete o processo de previsão em várias iterações para melhorar a precisão.
Redes neurais recorrentes
As redes neurais recorrentes (RNNs) são semelhantes às CNNs, mas podem processar uma série de imagens para encontrar ligações entre elas. Embora as CNNs sejam usadas para análise de imagem única, as RNNs podem analisar vídeos e entender as relações entre as imagens.
Qual é a diferença entre a visão computacional e o processamento de imagem?
O processamento de imagens usa algoritmos para alterar imagens, incluindo nitidez, suavização, filtragem ou aprimoramento. A visão computacional é diferente, pois não altera uma imagem, mas dá sentido ao que vê e realiza tarefas, como a rotulagem. Em alguns casos, você pode usar o processamento de imagem para modificar uma imagem para que um sistema de visão computacional possa entendê-la melhor. Em outros casos, você usa a visão computacional para identificar imagens ou partes de uma imagem e, em seguida, usa o processamento de imagem para modificá-la ainda mais.
Quais são as tarefas comuns que a visão computacional pode realizar?
Classificação de imagens
A classificação de imagens permite que os computadores vejam uma imagem e classifiquem com precisão em qual classe ela se enquadra. A visão computacional entende as classes e as rotula, por exemplo, como árvores, aviões ou edifícios. Um exemplo prático é uma câmera reconhecer rostos em uma fotografia e focar neles.
Detecção de objetos
A detecção de objetos é uma tarefa de visão computacional para detectar e localizar imagens. Ela usa classificação para reconhecer, classificar e organizar imagens. A detecção de objetos é usada em processos industriais e de fabricação para controlar aplicações autônomas e monitorar linhas de produção. Fabricantes de câmeras domésticas conectadas e prestadores de serviços também contam com a detecção de objetos para processar transmissões de vídeo ao vivo de câmeras para detectar pessoas e objetos em tempo real e fornecer alertas acionáveis aos usuários finais.
Rastreamento de objetos
O rastreamento de objetos usa modelos de aprendizado profundo para identificar e rastrear itens pertencentes a categorias. Ele tem várias aplicações práticas em diversos setores. O primeiro elemento do rastreamento de objetos é a detecção de objetos; uma caixa delimitadora é criada em torno do objeto, que recebe uma ID de objeto e pode ser rastreado por meio de quadros. Por exemplo, o rastreamento de objetos pode ser usado para monitoramento de tráfego em ambientes urbanos, vigilância humana e exames de imagens médicas.
Segmentação
A segmentação é um algoritmo de visão computacional que identifica um objeto dividindo imagens dele em diferentes regiões com base nos pixels detectados. A segmentação também simplifica uma imagem, por exemplo, colocando uma forma ou contorno em um item para determinar o que é. Ao fazer isso, a segmentação também reconhece se há mais de um objeto em uma imagem ou quadro.
Por exemplo, se houver um gato e um cachorro em uma imagem, a segmentação pode ser usada para reconhecer os dois animais. Diferentemente da detecção de objetos, que cria uma caixa ao redor de um objeto, a segmentação rastreia pixels para determinar a forma de um objeto, facilitando a análise e a rotulagem.
Recuperação de imagens baseada em conteúdo
A recuperação de imagens baseada em conteúdo é uma aplicação de técnicas de visão computacional que pode pesquisar imagens digitais específicas em grandes bancos de dados. Ela analisa metadados como tags, descrições, rótulos e palavras-chave. A recuperação semântica usa comandos como “encontrar imagens de edifícios” para recuperar o conteúdo determinado.
Como a AWS ajuda você nas tarefas de visão computacional?
A AWS fornece o conjunto mais amplo e completo de serviços de inteligência artificial e machine learning (IA/ML) conectados a um conjunto abrangente de fontes de dados para clientes de todos os níveis de especialização.
Para clientes que criam estruturas e gerenciam sua própria infraestrutura, otimizamos as versões das estruturas de aprendizado profundo mais populares, incluindo PyTorch, MXNet e TensorFlow. A AWS fornece um portfólio amplo e profundo de serviços de ML de infraestrutura de computação, rede e armazenamento, com uma variedade de processadores e aceleradores para atender às necessidades exclusivas de desempenho e orçamento.
Para clientes que desejam criar uma solução de visão computacional padrão em toda a empresa, o Amazon SageMaker facilita a preparação de dados e a criação, o treinamento e a implantação de modelos de ML para qualquer caso de uso com infraestrutura, ferramentas e fluxos de trabalho totalmente gerenciados, incluindo ofertas sem código para analistas de negócios.
Para clientes que não possuem habilidades de ML, precisam de um tempo mais rápido de lançamento no mercado ou desejam adicionar inteligência a um processo ou aplicação já existente, a AWS oferece uma variedade de serviços de visão computacional baseados em ML. Esses serviços permitem que você adicione facilmente inteligência às suas aplicações de IA por meio de APIs pré-treinadas. A Amazon Rekognition automatiza a análise de imagem e vídeo com ML e analisa milhões de imagens, transmissões ao vivo e vídeos armazenados em segundos.
Comece a usar a visão computacional criando uma conta gratuita na AWS hoje mesmo.