Geral
P: O que é Amazon Rekognition?
O Amazon Rekognition é um serviço que facilita a adição de análises visuais avançadas aos aplicativos. O Rekognition para imagem permite criar facilmente aplicativos avançados para pesquisar, verificar e organizar milhões de imagens. O Rekognition Video permite extrair o contexto baseado em movimento de vídeos armazenados ou de streamings ao vivo e ajuda a analisá-los.
O Rekognition Image é um serviço de reconhecimento de imagem que detecta objetos, cenas, atividades, pontos de referência, rostos, cores dominantes e qualidade de imagem. O Rekognition Image também extrai textos, reconhece celebridades e identifica conteúdos inapropriados em imagens. Ele permite pesquisar e comparar faces.
O Rekognition Video é um serviço de reconhecimento de vídeo que detecta atividades, mapeia a movimentação de pessoas em quadros e reconhece objetos, celebridades e conteúdo inadequado em vídeos armazenados no Amazon S3 e em transmissões de vídeo ao vivo. O Rekognition Video detecta pessoas e as rastreia durante todo o vídeo, mesmo quando suas faces não são visíveis ou quando a pessoa entra e sai da cena. Por exemplo, isso poderia ser usado em um aplicativo que envia uma notificação em tempo real quando alguém entrega um pacote na sua porta. O Rekognition Video também permite indexar metadados como objetos, atividades, cenas, celebridades e rostos, facilitando a pesquisa de vídeos.
P: O que é deep learning ou aprendizado profundo?
Deep learning é um subcampo de Machine Learning e um ramo importante da inteligência artificial. O objetivo é fazer inferências de abstrações de alto nível com base em dados brutos usando um gráfico profundo com diversas layers de processamento compostas de múltiplas transformações lineares e não lineares. O deep learning é vagamente baseado em modelos cerebrais de processamento de informações e comunicações. O deep learning substitui os recursos manuais por outros aprendidos com grandes quantidades de dados anotados. O aprendizado ocorre ao estimar iterativamente centenas de milhares de parâmetros no gráfico profundo com algoritmos eficientes.
Várias arquiteturas de deep learning, como redes neurais convolucionais profundas e redes neurais recorrentes foram aplicadas a visão computacional, reconhecimento de fala, processamento de linguagem natural e reconhecimento de áudio para produzir resultados de ponta em várias tarefas.
O Amazon Rekognition faz parte da família de serviços de inteligência artificial da Amazon (Amazon AI). Os serviços do Amazon AI usam aprendizagem profunda para entender imagens, transformar texto em fala natural e construir interfaces intuitivas de texto e fala em conversas.
P: Preciso de experiência em aprendizagem profunda para usar o Amazon Rekognition?
Não. Com o Amazon Rekognition não é necessário criar, manter ou atualizar pipelines de deep learning.
Para obter resultados precisos em tarefas complexas de visão computacional, como detecção de objetos e cenas, análise facial e reconhecimento facial, os sistemas de deep learning precisam estar devidamente ajustados e treinados com quantidades maciças de dados reais devidamente marcados. Obter, limpar e rotular dados com precisão é uma tarefa demorada e cara. Além disso, treinar uma rede neural profunda é caro em termos computacionais e muitas vezes exige hardware personalizado construído com GPUs (unidades de processamento gráfico).
O Amazon Rekognition é totalmente gerenciado e vem pré-treinado para tarefas de reconhecimento de imagem e vídeo, de forma que você não precise investir seu tempo e seus recursos na criação de um pipeline de deep learning. O Amazon Rekognition continua a melhorar a precisão de seus modelos ao se basear nas pesquisas mais recentes e obter novos dados de treinamento. Isso lhe permite se concentrar em projeto e desenvolvimento de aplicações de alto valor.
P: Quais são os casos de uso mais comuns do Amazon Rekognition?
Os casos de uso mais comuns do Rekognition Image incluem:
- Biblioteca de imagens pesquisáveis
- Verificação de usuários com base em faces
- Análise de sentimento
- Reconhecimento facial
- Image Moderation
Os casos de uso mais comuns do Rekognition Video incluem:
- Índice de pesquisa para arquivos de vídeo
- Filtragem fácil de vídeo para conteúdo explícito e sugestivo
P: Como faço para começar a usar o Amazon Rekognition?
Se você ainda não se cadastrou no Amazon Rekognition, clique no botão “Experimentar o Amazon Rekognition”, na página do Amazon Rekognition, e conclua o processo de inscrição. Você precisa ter uma conta no Amazon Web Services; se ainda não tiver, verá um aviso para criar uma durante o processo de cadastro. Depois de se cadastrar, experimente o Amazon Rekognition com suas próprias imagens e vídeos usando o Console de Gerenciamento do Amazon Rekognition ou faça download dos SDKs do Amazon Rekognition para começar a criar suas próprias aplicações. Consulte o nosso Guia de conceitos básicos, onde está o passo a passo para obter mais informações.
P: Quais formatos de imagem e vídeo são compatíveis com o Amazon Rekognition?
O Amazon Rekognition para imagem atualmente é compatível com os formatos de imagem JPEG e PNG. Você pode enviar imagens como objeto do S3 ou como array de byte. As operações do Amazon Rekognition Video podem analisar os vídeos armazenados nos buckets Amazon S3. O vídeo deve ser codificado usando o codec H.264. Os formatos de arquivo com suporte são MPEG-4 e MOV. Um codec é um software ou hardware que compacta os dados para realizar uma entrega mais rápida e descompacta os dados recebidos para a forma original. O codec H.264 é normalmente usado para gravação, compactação e distribuição de conteúdo de vídeo. Um formato de arquivo de vídeo pode conter um ou mais codecs. Se o arquivo de vídeo no formato MOV ou MPEG-4 não funcionar com o Rekognition Video, verifique se o codec usado para codificar o vídeo é H.264.
P: Quais tamanhos de arquivo posso usar com o Amazon Rekognition?
O Amazon Rekognition para imagem aceita arquivos de imagem de até 15 MB quando passados como objeto do S3 e de até 5 MB quando enviados como array de byte de imagem. O Amazon Rekognition Video aceita arquivos de até 10 GB e vídeos de até 6 horas quando passados como arquivo do S3.
P: Como a resolução da imagem afeta a qualidade dos resultados da API do Rekognition Image?
O Amazon Rekognition funciona em uma ampla série de resoluções de imagem. Para obter melhores resultados, recomendamos usar resolução VGA (640x480) ou superior. Uma qualidade inferior a QVGA (320x240) pode aumentar as chances de faces, objetos ou conteúdo impróprio passarem despercebidos, embora o Amazon Rekognition aceite imagens de pelo menos 80 pixels nas duas dimensões.
P: Qual o menor tamanho possível para um objeto ser detectado e analisado pelo Amazon Rekognition Image?
Como regra prática, verifique se o menor objeto ou face presente na imagem tem pelo menos 5% do tamanho (em pixels) da dimensão mais curta da imagem. Por exemplo: se você estiver trabalhando com uma imagem 1600x900, a menor face ou objeto deverá ter pelo menos 45 pixels em qualquer dimensão.
P: Como eu posso fazer com que as predições do Amazon Rekognition sejam revistas por pessoas?
O Amazon Rekognition é integrado diretamente com a IA aumentada da Amazon (Amazon A2I), assim você pode encaminhar facilmente predições com baixa confiabilidade do Amazon Rekognition Image para revisores humanos. Ao usar a API do Amazon Rekognition para moderação de conteúdo ou o console do Amazon A2I, você pode especificar as condições em que o Amazon A2I roteará as predições para os revisores, que podem ser tanto um limite de confiança ou uma porcentagem de amostra aleatória. Se você especificar um limite de confiança, Amazon A2I roteará apenas as previsões que ficam abaixo do limite para análise humana. Você pode ajustar esses limites a qualquer momento para alcançar o equilíbrio certo entre precisão e relação custo-benefício. Como alternativa, se você especificar uma porcentagem de amostragem, Amazon A2I roteará uma amostra aleatória das previsões para análise humana. Isso pode ajudá-lo a implementar auditorias para monitorar a precisão da predição regularmente. A Amazon A2I também fornece aos revisores uma interface da web que consiste em todas as instruções e ferramentas necessárias para concluírem suas tarefas de revisão. Para maiores informações sobre a implementação da revisão com o Amazon Rekognition, consulte o site do Amazon A2I.
P: Como a resolução do vídeo afeta a qualidade dos resultados da API do Rekognition Video?
O sistema é treinado para reconhecer faces maiores que 32 pixels (na menor dimensão), o que é convertido em um tamanho mínimo para uma face ser reconhecida que varia de aproximadamente 1/7 da menor dimensão da tela na resolução QVGA até 1/30 na resolução HD 1080p. Por exemplo, na resolução VGA, os usuários devem esperar desempenhos piores para faces menores que 1/10 da menor dimensão da tela.
P: O que mais pode afetar a qualidade das APIs do Rekognition Video?
Além da resolução de vídeo, a qualidade das APIs pode ser afetada por muito desfoque, pessoas em movimento rápido, condições de iluminação e poses.
P: Qual é o conteúdo de vídeo do usuário mais adequado para as APIs do Rekognition Video?
Esta API funciona melhor com vídeos de consumidores e profissionais obtidos com o campo de visão frontal em condições normais de cores e iluminação. A API não foi testada para preto e branco, infravermelho ou condições extremas de iluminação. Os aplicativos que são sensíveis a falsos alarmes são aconselhados a descartar os resultados com pontuação de confiança abaixo de uma pontuação de confiança selecionada (específica do aplicativo).
P: Em quais regiões da AWS o Amazon Rekognition está disponível?
Para ver uma lista de todas as regiões em que o Amazon Rekognition está disponível, consulte a tabela de regiões da AWS.
Detecção de rótulo
P: O que é rótulo?
Rótulo é um objeto, uma cena ou um conceito encontrados dentro de uma imagem, tomando por base seu conteúdo. Por exemplo, uma foto de pessoas em uma praia tropical pode conter rótulos como ‘Pessoa’, ‘Água’, ‘Areia’, ‘Palmeira’ e ‘Roupa de banho’ (objetos), ‘Praia’ (cena) e ‘Vida ao ar livre’ (conceito).
P: O que é pontuação de confiança e como faço para usá-la?
A pontuação de confiança é um número entre 0 e 100 que indica a probabilidade de determinada predição estar correta. No exemplo da praia tropical, se o processo de detecção de objeto e cena apresentar uma pontuação de confiança de 99 para o rótulo 'Água' e 35 para o rótulo ‘Palmeira’, é mais provável que a imagem contenha água, mas não uma palmeira.
Aplicações muito sensíveis a erros de detecção (falso-positivos) devem descartar os resultados associados às pontuações de confiança abaixo de determinado limite. O limite ideal depende da aplicação. Em muitos casos, a melhor experiência será ao definir valores de confiança mínimos mais elevados que o valor padrão.
P: O que é detecção de objeto e cena?
Detecção de objeto e cena é o processo de analisar uma imagem ou um vídeo para atribuir rótulos com base no conteúdo visual. O Amazon Rekognition Image faz isso pela API DetectLabels. Essa API lhe permite identificar automaticamente milhares de objetos, cenas e conceitos, apresentando uma pontuação de confiança para cada rótulo. DetectLabels usa um limite de confiança padrão de 50. A detecção de objeto e cena é ideal para os clientes que querem organizar e fazer buscas em grandes bibliotecas de imagem, inclusive em aplicações voltadas para consumidor e estilo de vida que dependem de conteúdo gerado pelo usuário e empresas de publicidade digital que procuram melhorar os algoritmos de direcionamento.
P: O Amazon Rekognition pode detectar locais de objetos e retornar caixas delimitadoras?
Sim, o Amazon Rekognition pode detectar a localização de muitos objetos comuns, como “Pessoa”, “Carro”, “Arma” ou “Cão” em imagens e vídeos. Você obtém as coordenadas do retângulo delimitador para cada instância do objeto encontrado, bem como uma pontuação de confiança. Para obter mais detalhes sobre a estrutura de resposta da APIs para caixas delimitadoras de objetos, consulte a documentação.
P: O Amazon Rekognition fornece informações sobre o relacionamento entre os rótulos detectados?
Sim, para cada rótulo encontrado, o Amazon Rekognition retorna os rótulos pai, pseudônimos e categorias, se existirem. Os rótulos pai são retornados para o campo “parents” (pais) na ordem hierárquica. O primeiro rótulo pai é o pai imediato, enquanto os rótulos seguintes são pais dos pais. Por exemplo, quando um “Carro” é identificado, o Amazon Rekognition retorna dois rótulos pai “Veículo” (pai) e “Transporte” (pai do pai). Pseudônimos são rótulos com o mesmo significado dos rótulos primários e retornados no campo “aliases” (pseudônimos). Por exemplo, como “Celular” é um pseudônimo de “Telefone móvel”, o Amazon Rekognition retorna “Celular” no campo “aliases” (pseudônimos) de um rótulo “Telefone móvel”. Rótulos de grupos de categorias são baseados em temas comuns e retornados no campo “categories” (categorias). Por exemplo, uma vez que “Cão” é um rótulo que está abaixo da categoria “Animais e pets”, o Amazon Rekognition retorna “Animais e pets” no campo “categories” (categorias) de um rótulo de “Cão”. Para mais detalhes sobre a lista completa de rótulos suportados e suas taxonomias, acesse a documentação de detecção de rótulos do Amazon Rekognition.
P: Quais tipos de rótulos são compatíveis com o Amazon Rekognition?
O Rekognition é compatível com milhares de rótulos pertencentes a categorias como:
- Pessoas e eventos: ‘Casamento’, ‘Noiva’, ‘Bebê’, ‘Bolo de aniversário’, ‘Guitarrista’, etc.
- Alimentos e bebidas: ‘Maçã’, ‘Sanduíche’, ‘Vinho’, ‘Bolo’, ‘Pizza’, etc.
- Natureza e vida ao ar livre: ‘Praia’, ‘Montanhas’, ‘Lago’, ‘Pôr do sol’, ‘Arco-íris’, etc.
- Animais e bichinhos de estimação: ‘Cachorro’, ‘Gato’, ‘Cavalo’, ‘Tigre’, ‘Tartaruga’, etc.
- Casa e jardim: ‘Cama’, ‘Mesa’, ‘Quintal’, ‘Candelabro’, ‘Quarto’, etc.
- Esportes e lazer: ‘Golfe’, ‘Basquete’, ‘Hóquei’, ‘Tênis’, ‘Hiking’, etc.
- Plantas e flores: ‘Rosa’, ‘Tulipa’, ‘Palmeira’, ‘Floresta’, ‘Bambu’, etc.
- Arte e entretenimento: ‘Escultura’, ‘Pintura’, ‘Guitarra’, ‘Balé’, ‘Mosaico’, etc.
- Transporte e veículos: ‘Avião’, ‘Carro’, ‘Bicicleta’, ‘Motocicleta’, ‘Caminhão’, etc.
- Eletrônico: “Computador”, “Celular”, “Câmera de vídeo”, “TV”, “Fones de ouvido” etc.
- Pontos de referência: “Ponte do Brooklyn”, “Coliseu”, “Torre Eiffel”, “Machu Picchu”, “Taj Mahal” etc.
P: Como a detecção de objeto e cena é diferente na análise de vídeo?
O Rekognition Video permite identificar automaticamente milhares de objetos, como veículos ou animais de estimação, e atividades, como celebrações ou danças, e fornece timestamps e uma pontuação de confiança para cada rótulo. Também depende do contexto de movimento e tempo no vídeo para identificar com precisão atividades complexas, como “soprar uma vela” ou “apagar fogo”.
P: Não consigo encontrar o rótulo de que preciso. Como faço para requisitar um novo rótulo?
Envie-nos suas requisições de rótulos através do console do Amazon Rekognition digitando o nome do rótulo no campo de entrada da seção “Search all labels” (Pesquisar todos os rótulos) e clique em “Request Rekognition” (Reconhecimento da requisição) para detectar o rótulo requisitado. O Amazon Rekognition expande continuamente seu catálogo de rótulos com base no feedback dos clientes.
P: O que é Image Properties?
Image Properties é um recurso do Amazon Rekognition Image que detecta cores dominantes e qualidade de imagens. O Image Properties detecta cores dominantes da imagem inteira, da imagem em primeiro plano, de seu plano de fundo e objetos com caixas delimitadoras localizadas. O Image Properties também mensura a qualidade da imagem através dos resultados de brilho, nitidez e contraste. O Image Properties pode ser requisitado através da API DetectLabels usando IMAGE_PROPERTIES como parâmetro de entrada, com ou sem o parâmetro de entrada GENERAL_LABEL para detecção de rótulos. Acesse a documentação de detecção de rótulos do Amazon Rekognition para saber mais.
P: Como são determinadas as cores dominantes?
O Image Properties retorna as cores dominantes em quatro formatos: RGB, hexadecimal, cores em CSS e cores simplificadas. O Amazon Rekognition identifica primeiramente as cores dominantes através da porcentagem de pixels e, em seguida, mapeia essas cores para 140 paletas de cores em CSS, RGB, código hexadecimal e 12 cores simplificadas (isto é, “verde”, “rosa”, “preto”, “vermelho”, “amarelo”, “ciano”, “marrom”, “laranja”, “branco”, “roxo”, “azul” e “cinza”). Por padrão, o Image Properties retorna dez (10) cores dominantes, a menos que os clientes especifiquem o número de cores a ser retornado. O número máximo de cores dominantes que a API pode retornar é de 12 cores.
P: Como interpreto os resultados de brilho, nitidez e contraste?
O Image Properties fornece uma faixa de valores de 0 a 100 para cada resultado de brilho, nitidez e contraste. Por exemplo, uma imagem com baixa exposição retornará um resultado de brilho baixo, enquanto uma imagem bem iluminada retornará um alto resultado de brilho.
P: Como verificar se o Amazon Rekognition atualizou seus modelos?
O Amazon Rekognition retorna um parâmetro LabelModelVersion que permite saber se o modelo foi atualizado. Os modelos de detecção de objetos e cenas são atualizados com frequência com base no feedback dos clientes.
Amazon Rekognition Custom Labels
P: Posso usar o Custom Labels para analisar rostos e para detecção de texto personalizado?
Não. O Custom Labels foi feito para encontrar objetos e cenas em imagens. O Custom Labels não foi projetado para analisar rostos e para detecção de texto personalizado. Você deve usar outras APIs do Rekognition para tais tarefas. Consulte a documentação para análise de face e detecção de texto.
P: Posso usar o Custom Labels para encontrar conteúdo de imagem não seguro?
Sim. O Custom Labels foi feito para encontrar objetos e cenas em imagens. O Custom Labels, quando treinado para detectar conteúdo de imagem não seguro específico para o seu caso de uso, pode detectar conteúdo de imagem não seguro específico para o seu caso de uso. Consulte também a documentação da API de Moderação para detectar conteúdo genérico de imagem não seguro.
P: Quantas imagens são necessárias para treinar um modelo personalizado?
O número de imagens necessárias para treinar um modelo personalizado depende da variabilidade das etiquetas personalizadas que você quer que o modelo preveja e da qualidade dos dados de treinamento. Por exemplo, um logotipo distinto escondido em uma imagem pode ser detectado em uma ou duas imagens de treino, enquanto um logotipo mais discreto que precise ser detectado sob diversas variações (escada, ponto de vista, deformação) pode precisar de dezenas a centenas de exemplos de treinamento com anotações de alta qualidade. Se você já tiver um grande número de imagens já classificadas, nós recomendamos treinar o modelo com quantas imagens você tiver disponível. Consulte a documentação para os limites máximos do tamanho do conjunto de dados do treinamento.
Embora centenas de imagens possam algumas vezes serem necessárias para treinar um modelo personalizado com alta precisão, com o Custom Labels você poderá primeiro treinar o modelo com dezenas de imagens por rótulo, rever os resultados dos seus testes para entender onde ele não funcionou e adicionar novas imagens de treinamento adequadas e treinar novamente para melhorar de forma interativa seu modelo.
P: Quantos recursos de inferência de computador eu deveria fornecer para o meu modelo personalizado?
O número de recursos de inferência de computador necessários depende de quantas imagens você precisa processar em um dado momento. A taxa de transferência de um único recurso irá depender de fatores que incluem o tamanho das imagens, a complexidade dessas imagens (quantos objetos detectados são visíveis) e a complexidade de seu modelo personalizado. Nós recomendamos que você monitore a frequência com que você precisa fornecer seu modelo personalizado e o número de imagens que precisam ser processadas por vez para poder programar o fornecimento para seu modelo personalizado de forma mais eficiente.
Se você quiser processar as imagens periodicamente (por exemplo, uma vez por dia ou por semana ou horários programados do dia), deverá começar a provisionar o modelo personalizado em um horário programado, processar todas as imagens e então parar de provisionar. Se você não interromper o fornecimento, você será cobrado mesmo que nenhuma imagem seja processada.
P: Meu treinamento falhou. Eu serei cobrado?
Não. Você não será cobrado pelos recursos de computação se seu treinamento falhar.
Moderação de conteúdo
P: O que é Moderação de conteúdo?
A API Moderação de conteúdo do Amazon Rekognition usa aprendizado profundo para detectar conteúdo adulto explícito ou sugestivo, conteúdo violento, armas, conteúdo visualmente perturbador, drogas, álcool, tabaco, símbolos de ódio, jogos de azar e gestos rudes em imagens e vídeos. Além de sinalizar uma imagem com base na presença de conteúdo inapropriado ou ofensivo, o Amazon Rekognition também retorna uma lista hierárquica de rótulos com pontuações de confiança. Esses rótulos indicam subcategorias específicas de conteúdo detectado, o que disponibiliza um maior controle granular para que os desenvolvedores possam filtrar e gerenciar grandes volumes de User Generated Content (UGC – Conteúdo gerado pelo usuário). Essa API pode ser usada em fluxos de trabalho de moderação para aplicações como sites de relacionamentos e redes sociais, plataformas de compartilhamento de fotos, blogs e fóruns, aplicativos para crianças, sites de comércio eletrônico, entretenimento e serviços de anúncios online.
P: Quais tipos de conteúdo inapropriado, ofensivo e indesejado o Amazon Rekognition detecta?
Você pode encontrar uma lista completa de categorias de conteúdo detectadas pelo Amazon Rekognition aqui.
Um Amazon Rekognition retorna uma hierarquia de rótulos, bem como uma pontuação de confiança para cada rótulo detectado. Por exemplo, ao obter uma imagem imprópria, o Rekognition poderá retornar “Nudez explícita” com uma pontuação de confiança como um rótulo de nível superior. Os desenvolvedores podem usar esses metadados para sinalizar conteúdo em alto nível, por exemplo, quando todos os tipos de conteúdo adulto explícito devem ser sinalizados. Na mesma resposta, o Rekognition também retornará um segundo nível de granularidade ao fornecer contexto adicional como “Nudez masculina gráfica” com sua própria pontuação de confiança. Os desenvolvedores poderão usar estas informações para criar uma lógica de filtragem mais complexa para atender a diferentes geografias e demografias.
Observe que a API Moderação de conteúdo não é uma autoridade no que se refere a, ou sob nenhuma circunstância afirma ser um filtro exaustivo de conteúdo inapropriado e ofensivo. Além disso, essa API não detecta se uma imagem inclui conteúdo ilegal (como material de abuso sexual infantil) ou conteúdo adulto não natural.
Se você precisar que outros tipos de conteúdo impróprio sejam detectados em imagens, entre em contato conosco usando o processo de feedback descrito mais adiante nesta seção.
P: Como posso saber qual versão do modelo estou usando atualmente?
O Amazon Rekognition melhora seus modelos regularmente. Para acompanhar a versão do modelo, você pode usar o campo “ModerationModelVersion” na resposta da API.
P: Como posso garantir que o Amazon Rekognition atenda às metas de precisão para o meu caso de uso de imagem ou moderação de vídeo?
Os modelos de Moderação de conteúdo do Amazon Rekognition foram ajustados e testados extensivamente, mas recomendamos que você calcule a exatidão nos seus próprios conjuntos de dados para regular a performance.
Você pode usar o parâmetro “MinConfidence” nas solicitações de API para equilibrar a detecção de conteúdo (lembrar) em contraponto à exatidão da detecção (precisão). Se você reduzir o parâmetro “MinConfidence”, provavelmente detectará a maior parte do conteúdo impróprio, mas também possivelmente receberá conteúdo que não é de fato inapropriado. Caso aumente o parâmetro “MinConfidence”, você provavelmente garantirá que todo o conteúdo detectado seja de fato inapropriado, mas algum conteúdo poderá não ser sinalizado.
P: Como posso enviar feedback ao Rekognition para melhorar suas APIs de Moderação de conteúdo?
Envie suas solicitações pelo atendimento ao cliente da AWS. O Amazon Rekognition expande continuamente os tipos de conteúdo impróprio detectados com base no feedback do cliente. Observe que conteúdo ilegal (como material de abuso sexual infantil) não será aceito por meio desse processo.
Análise facial
P: O que é análise facial?
Análise facial é o processo de detecção de uma face dentro de uma imagem e de extração dos atributos relevantes dela. O Amazon Rekognition para imagem retorna a caixa delimitadora para cada face detectada em uma imagem, juntamente com atributos como gênero, presença de óculos de sol e pontos de referência. O Rekognition Video retornará as faces detectadas em um vídeo com timestamps e, para cada face detectada, a posição e uma caixa delimitadora, juntamente com os pontos de referência da face.
P: Quais atributos faciais posso obter com o Amazon Rekognition?
O Amazon Rekognition apresenta os atributos faciais a seguir para cada face detectada, junto com uma caixa limitadora e uma pontuação de confiança para cada atributo:
- Sexo
- Sorriso
- Emoções
- Óculos
- Óculos escuros
- Olhos abertos
- Boca aberta
- Bigode
- Barba
- Pose
- Qualidade
- Pontos de referência faciais
P: O que é pose facial?
Pose facial refere-se à rotação de uma face detectada nos eixos lateral, vertical e longitudinal. Cada um desses parâmetros é apresentado como ângulo entre -180 e +180 graus. A pose facial pode ser usada para encontrar a orientação do polígono limitador da face (ao contrário de uma caixa limitadora retangular) para medir deformação, rastrear faces com precisão e muito mais.
P: O que é qualidade facial?
Qualidade da face descreve a qualidade da imagem de face detectada usando dois parâmetros: nitidez e brilho. Os dois parâmetros são apresentados como valores entre 0 e 1. Você pode aplicar um limite a esses parâmetros para filtrar faces bem iluminadas e nítidas. Isso é útil para aplicativos que se beneficiam de imagens faciais de alta qualidade, como comparação facial e reconhecimento facial.
P: O que são pontos de referência facial?
Pontos de referência facial são um conjunto de pontos salientes no geral localizados em cantos, pontas ou pontos médios dos principais componentes faciais, como olhos, nariz e boca. A API DetectFaces do Amazon Rekognition apresenta uma série de pontos de referência faciais que podem ser usados para cortar faces, transformar uma face em outra, sobrepor máscaras personalizadas para criar filtros personalizados e muito mais.
P: Quantas faces posso detectar em uma imagem?
Você pode detectar até 100 faces em uma imagem usando o Amazon Rekognition.
P: Como a análise facial é diferente para a análise de vídeo?
Com o Rekognition Video, é possível localizar faces dentro de vídeos e analisar atributos faciais, como se a face está sorrindo, os olhos estão abertos ou está expressando alguma emoção. O Rekognition Video retornará as faces detectadas em um vídeo com timestamps e, para cada face detectada, a posição e uma caixa delimitadora, juntamente com os pontos de referência, como olho esquerdo, olho direito, nariz e os cantos esquerdo e direito da boca. Essas informações sobre posição e tempo podem ser usadas para rastrear facilmente o sentimento do usuário ao longo do tempo e oferecer funcionalidades adicionais, como quadros de rosto automáticos, destaques ou recortes. A pesquisa do usuário não é compatível com análise de vídeo.
P: Além da resolução de vídeo, o que mais pode afetar a qualidade das APIs do Rekognition Video?
Além da resolução de vídeo, a qualidade e as faces representativas, parte das coleções de face a serem pesquisadas, têm grande impacto. O uso de múltiplas instâncias faciais por pessoa com variações, como barba, óculos, poses (perfil e frontal), melhorará significativamente a performance. Geralmente, as pessoas com movimentos muito rápidos podem resultar em baixa revocação. Além disso, vídeos borrados podem apresentar qualidade inferior.
Comparação de faces
P: O que é comparação de faces?
Comparação de faces é o processo de comparar uma face com uma ou mais faces para medir a semelhança. Usando a API CompareFaces, o Amazon Rekognition Image permite medir a probabilidade de que faces em duas imagens sejam da mesma pessoa. A API compara uma face na imagem de origem a cada face detectada na imagem de destino e apresenta uma pontuação de semelhança para cada comparação. São também apresentadas uma caixa limitadora e uma pontuação de confiança para cada face detectada. É possível usar a comparação facial para verificar a identidade da pessoa com relação à foto pessoal em arquivo quase em tempo real.
P: Posso usar uma imagem de origem com mais de uma face?
Sim. Se a imagem contiver várias faces, a CompareFaces detectará a maior e a usará para compará-la a cada face detectada na imagem de destino.
P: Com quantas faces posso fazer a comparação?
É possível comparar uma face na imagem de origem com até 15 faces detectadas na imagem de destino.
Pesquisa facial
P: O que é a pesquisa facial?
A pesquisa facial é o processo de usar uma face de entrada para pesquisar correspondências semelhantes em uma coleção de faces armazenadas. Com a pesquisa facial, é fácil criar aplicações como autenticação multifator para pagamentos bancários, entrada automatizada no edifício para funcionários e muito mais.
P: O que é coleção de faces e como faço para criar uma?
A coleção de faces é seu índice pesquisável de vetores de faces, que são uma representação matemática de faces. O Rekognition não armazena imagens de faces em sua coleção. Com a API CreateCollection, é possível criar facilmente uma coleção em uma região da AWS com suporte e obter um nome do recurso da Amazon (ARN). Cada coleção de faces tem um CollectionId exclusivo associado.
P: Como adicionar faces a uma coleção para pesquisa?
Para adicionar uma face a uma coleção de faces existentes, use a API IndexFaces. Essa API aceita uma imagem na forma de objeto do S3 ou matriz de bytes de imagem e adiciona uma representação vetorial das faces detectadas à coleção de faces. A IndexFaces também apresenta uma FaceId exclusiva e uma caixa limitadora facial para cada vetor de faces adicionado.
É possível agregar múltiplos vetores de faces da mesma pessoa para criar e armazenar vetores de usuário usando as APIs CreateUser e AssociateFaces. Os vetores do usuário são representações mais robustas do que os vetores de face única porque contêm vários vetores de faces com vários graus de iluminação, nitidez, poses, diferenças de aparência etc. A pesquisa facial com vetores de usuário pode ser consideravelmente mais precisa do que a pesquisa facial com vetores de face única. Os vetores do usuário são armazenados na mesma coleção dos vetores de face associados.
P: Como faço para excluir faces de uma coleção?
Para excluir uma face de uma coleção de faces existente, use a API DeleteFaces. Essa API opera na coleção de faces fornecida (usando um CollectionId) e remove as entradas correspondentes à lista de FaceIDs. Se o FaceID estiver associado a um vetor de usuário, primeiro será necessário usar a chamada de API DisassociateFaces para removê-lo do vetor de usuário. Como alternativa, é possível excluir o vetor de usuário da coleção usando a API DeleteUser.
Para obter mais informações sobre como adicionar e excluir faces, consulte nosso exemplo em Managing Collections.
P: Como buscar um usuário em uma coleção de faces?
Após criar usuários e FaceIDs associados, você pode pesquisar usando uma imagem (SearchUsersByImage), um UserId (SearchUsers) ou um FaceID (SearchUsers). Essas APIs pegam uma face inserida e apresentam um conjunto de usuários correspondentes, ordenados por pontuação de semelhança, com a maior semelhança primeiro. Para obter mais detalhes, consulte o exemplo Searching Users.
P: Como buscar uma face dentro de uma coleção de faces?
Depois de criar uma coleção de faces indexada, é possível buscar uma face dentro dela usando uma imagem (SearchFaceByImage) ou um FaceId (SearchFaces). Essas APIs pegam uma face inserida e apresentam um conjunto de faces correspondentes, ordenadas por pontuação de semelhança, com a maior semelhança primeiro. Para obter mais detalhes, consulte o exemplo Searching Faces.
P: Qual é a diferença entre pesquisa facial e a análise de vídeo?
O Rekognition Video permite realizar pesquisas faciais em tempo real com base nas coleções com dezenas de milhões de faces. Primeiro, crie um conjunto de rostos, onde será possível armazenar rostos, que são representações vetoriais de traços faciais. Em seguida, o Rekognition pesquisa a coleção de faces para encontrar faces visualmente semelhantes em todo o seu vídeo. O Rekognition retorna uma pontuação de confiança para cada face do vídeo, o que permite exibir as prováveis correspondências na aplicação. A pesquisa do usuário não é compatível com análise de vídeo.
P: Além da resolução de vídeo, o que mais pode afetar a qualidade das APIs de vídeo?
Além da resolução de vídeo, a qualidade e as faces representativas, parte das coleções de face a serem pesquisadas, têm grande impacto. O uso de múltiplas instâncias faciais por pessoa com variações, como barba, óculos, poses (perfil e frontal), melhorará significativamente o desempenho. Geralmente as pessoas com movimentos muito rápidos podem resultar em uma baixa revocação. Além disso, os vídeos borrados podem apresentar qualidade inferior.
Reconhecimento de celebridades
P: O que é o reconhecimento de celebridades?
O reconhecimento de celebridades do Amazon Rekognition é uma API fácil de usar, baseada em aprendizado profundo, para a detecção e o reconhecimento de indivíduos famosos, relevantes ou proeminentes em seus campos de atuação. A API RecognizeCelebrities foi criada para operar em grande escala e reconhecer celebridades de várias categorias, como política, esportes, negócios, entretenimento e mídia. Nosso reconhecimento de celebridades é ideal para clientes que precisam indexar e pesquisar por celebridades em suas bibliotecas de imagens com base em seus interesses específicos.
P: Quem pode ser identificado pela API de reconhecimento de celebridades?
O Amazon Rekognition só pode identificar celebridades que os modelos de aprendizado profundo tiverem sido treinados para reconhecer. Observe que a API RecognizeCelebrities não é (tampouco alega ser) uma profunda conhecedora de uma imensa lista de celebridades. O recurso foi criado para incluir o máximo de celebridades possível, com base nas necessidades e no feedback dos nossos clientes. Estamos constantemente adicionando novos nomes, mas o fato de o Celebrity Recognition não reconhecer indivíduos que possam ser considerados proeminentes por qualquer outro grupo ou pelos nossos clientes não é um reflexo da nossa opinião a respeito do status de celebridade mantido por essas pessoas. Se você quiser ver outras celebridades identificadas pelo reconhecimento de celebridades, envie o seu feedback para a gente.
P: Uma celebridade identificada por meio da API do Amazon Rekognition pode solicitar sua remoção do recurso?
Sim. Se uma celebridade desejar ser removida do recurso, ela poderá enviar um e-mail para o suporte ao cliente da AWS e nós processaremos a solicitação de remoção.
P: Quais recursos são aceitos para disponibilizar informações adicionais sobre uma celebridade?
A API aceita uma lista opcional de fontes para a disponibilização de informações adicionais sobre a celebridade como parte da resposta da API. No momento, disponibilizamos o URL do IMDB, quando há um disponível para a celebridade em questão. Existe a possibilidade de adicionarmos outras fontes posteriormente.
P: Como o reconhecimento de celebridades é diferente para a análise de vídeo?
Com o Rekognition Video, você pode detectar e reconhecer quando e onde pessoas conhecidas aparecem em um vídeo. O resultado codificado por tempo inclui o nome e o ID exclusivo da celebridade, as coordenadas da caixa delimitadora, a pontuação de confiança e os URLs que indicam o conteúdo relacionado a ela, como seu link do IMDB. A celebridade também é detectada mesmo quando o rosto pode estar oculto no vídeo. Esse recurso permite indexar e pesquisar em bibliotecas de vídeos digitais para os casos de uso relacionados às suas necessidades específicas de marketing e mídia.
P: Além da resolução de vídeo, o que mais pode afetar a qualidade das APIs do Rekognition Video?
Celebridades em movimentos muito rápidos e vídeos borrados podem afetar a qualidade das APIs do Rekognition Video. Além disso, a qualidade pode ser afetada por maquiagem pesada e camuflagem, comuns para atores/atrizes.
Detecção de texto
P: O que é a detecção de texto?
A detecção de texto é um recurso do Amazon Rekognition que permite detectar e reconhecer texto em uma imagem ou um vídeo, como nomes de ruas, legendas, nomes de produtos, gráficos sobrepostos, legendas de vídeo e placas de licenciamento de veículos. A detecção de texto foi criada especificamente para processar imagens e vídeos do mundo real, em vez de imagens de documentos. A API DetectText do Amazon Rekognition processa uma imagem e retorna o rótulo de texto e uma caixa delimitadora para cada string de caracteres detectada, juntamente com uma pontuação de confiabilidade. Por exemplo, em aplicativos de compartilhamento de imagens e mídia social, é possível habilitar uma pesquisa visual baseada em um índice de imagens que contêm os mesmos rótulos de texto. Em aplicativos de segurança, é possível identificar veículos com base nos números de placa de licenciamento de imagens capturadas por câmeras de trânsito. De maneira similar, para vídeos, com as APIs StartTextDetection e GetTextDetection, é possível detectar texto e obter pontuações de confiança e carimbos de data/hora para cada detecção. Em aplicativos de mídia e entretenimento, você pode criar metadados de texto a fim de oferecer suporte a pesquisas por conteúdo relevante, como notícias, resultados esportivos, comerciais e legendas. Também é possível analisar o texto detectado em relação a violações à política ou conformidade. Por exemplo, um endereço de e-mail ou telefone que foi sobreposto por remetentes de spam.
P: Para quais os tipos de texto a detecção de texto do Amazon Rekognition oferece suporte?
O recurso de detecção de texto foi criado especificamente para processar imagens do mundo real, em vez de imagens de documentos. Esse recurso oferece suporte à maioria dos caracteres e números latinos incorporados em uma grande variedade de layouts, fontes e estilos, e sobrepostos em objetos no plano de fundo em diversas orientações como faixas e cartazes. A detecção de texto reconhece até 50 sequências de caracteres por imagem ou quadro de vídeo e as lista como palavras e linhas. A detecção de texto é compatível com texto girado de -90 a +90 graus em relação ao eixo horizontal.
P: Posso limitar a detecção de texto a regiões específicas em uma imagem ou quadro de vídeo?
Sim, é possível usar as opções de filtragem da detecção de texto para especificar até 10 regiões de interesse (ROIs) na solicitação da API. O Amazon Rekognition retornará apenas o texto que estiver dentro dessas regiões.
P: Posso filtrar detecções de texto por confiança de palavras ou tamanho da caixa delimitadora?
Sim, na solicitação da API é possível usar as opções de filtragem da detecção de texto para especificar os limites para pontuações mínimas de confiança ou as dimensões mínimas da caixa delimitadora.
P: Como posso enviar feedback ao Rekognition para melhorar o reconhecimento de texto?
Envie-nos suas solicitações via Atendimento ao Cliente da AWS. O Amazon Rekognition amplia continuamente os tipos de conteúdo de texto detectados com base no feedback do cliente.
Detecção de EPI
P: Qual equipamento de proteção individual (EPI) o Amazon Rekognition pode detectar?
O “DetectProtectiveEquipment” do Amazon Rekognition tipos comuns de máscaras, luvas e capacetes. Para saber mais, consulte a documentação do recurso. Você também pode usar o Amazon Rekognition Custom Labels para detectar EPI como uniformes de alta visibilidade, óculos de segurança e outros EPIs exclusivos do seu negócio. Para saber mais sobre como você pode usar o Amazon Rekognition Custom Labels para detecção de EPIs personalizados, visite este repositório do github.
P: O Amazon Rekognition pode detectar locais de equipamentos de proteção e retornar caixas delimitadoras?
Sim, a API “DetectProtectiveEquipment” do Amazon Rekognition pode detectar o local de equipamentos de proteção como máscaras, luvas e capacetes nas pessoas que estão nas imagens. Você obtém as coordenadas da caixa retangular delimitadora para cada item do equipamento de proteção detectado, bem como uma pontuação de confiança. Para obter mais detalhes sobre a resposta da API, consulte a documentação.
P: O serviço pode detectar se a máscara está sendo usada corretamente?
A saída da API “DetectProtectiveEquipment” do Amazon Rekognition fornece o valor (verdadeiro/falso) de “CoversBodyPart” e o valor de confiança do valor booleano de cada item detectado de equipamento de proteção. Isso fornece informações sobre se o equipamento de proteção está na parte correspondente do corpo da pessoa. A previsão sobre a presença de equipamento de proteção na parte do corpo correspondente ajuda a filtrar casos em que o EPI está na imagem, mas não está realmente na pessoa. No entanto, ela não indica nem dá a entender se a pessoa está adequadamente protegida pelo equipamento de proteção ou que o equipamento de proteção em si está sendo usado corretamente.
P: A detecção de EPI do Amazon Rekognition pode identificar as pessoas detectadas?
Não, a detecção de EPI do Amazon Rekognition não executa reconhecimento nem comparação facial e não é capaz de identificar as pessoas detectadas.
P: Onde posso encontrar mais informações sobre os limites e a latência da API?
Consulte a documentação da detecção de EPI do Amazon Rekognition para obter os detalhes mais recentes sobre os limites e a latência da API.
P: Como envio imagens das câmeras do meu local de trabalho para o Amazon Rekognition?
Você tem várias opções para fazer amostragem de imagens das câmeras do seu local de trabalho. Consulte o blog de detecção de EPI do Amazon Rekognition para saber mais.
P: Como o preço da detecção de EPI é definido?
O preço da detecção de EPI do Amazon Rekognition é definido de maneira similar a outras APIs de imagem do Amazon Rekognition, por cada imagem. Para saber mais, visite a página de preços do Amazon Rekognition.
Amazon Rekognition Streaming Video Events
P: O que é o Amazon Rekognition Streaming Video Events?
O serviço Amazon Rekognition Streaming Video Events usa machine learning para detectar objetos nas câmeras conectadas e fornecer alertas acionáveis em tempo real. O Amazon Rekognition Streaming Video Events funciona com transmissões novas e existentes do Kinesis Video Streams para processar transmissões de vídeo (até 120 segundos por evento de movimento) e notificar você assim que um objeto de interesse for detectado. Você pode usar essas notificações para
- Enviar alertas inteligentes aos usuários finais, como “Foi detectado um pacote na porta da frente”.
- Oferecer recursos de automação residencial como “acender a lâmpada da garagem quando uma pessoa for detectada”.
- Integre com assistentes inteligentes, como dispositivos Echo, para gerar comunicações da Alexa quando um objeto for detectado.
- Forneça recursos de pesquisa inteligente, como pesquisar em todos os clipes de vídeo quando um pacote for detectado.
P: Como funciona o Amazon Rekognition Streaming Video Events?
Você pode usar transmissões novas ou existentes do Kinesis Video Streams para começar a usar o Amazon Rekognition Streaming Video Events. Ao configurar seu processador de transmissão para o Amazon Rekognition, você pode escolher os rótulos desejados (pessoa, animal de estimação ou pacote) que deseja detectar, a duração do vídeo (até 120 segundos por evento de movimento) que o Rekognition deve processar para cada evento e/ou a região de interesse no quadro. As APIs do Rekognition Streaming Video Events só processam vídeo quando você envia uma notificação ao Rekognition para começar a processar a transmissão.
Quando algum movimento é detectado em uma câmera conectada, você envia uma notificação ao Rekognition para começar a processar a transmissão de vídeo. O Rekognition processa o Kinesis Video Stream correspondente após a detecção do movimento e busca pelos objetos desejados que você especificou. Assim que detectar um objeto desejado, o Amazon Rekognition enviará uma notificação a você. Essa notificação inclui o objeto detectado, a caixa delimitadora, uma imagem ampliada do objeto e o carimbo de data/hora.
P: Quais são os rótulos compatíveis com o Amazon Rekognition Streaming Video Events?
O Amazon Rekognition Streaming Video Events é compatível com rótulos de pessoas, animais de estimação e pacotes.
P: Que tipos de animais de estimação e pacotes as APIs do Amazon Rekognition Streaming Video pode detectar?
As APIs do Amazon Rekognition Streaming Video Events oferece suporte à detecção de cães e gatos. A API pode detectar caixas de papelão médias e grandes com alta precisão. A API também pode detectar caixas menores, envelopes grandes com plástico bolha e pastas, mas pode não conseguir localizar alguns desses objetos ocasionalmente.
P: Haverá cobranças separadas para cada rótulo detectado? Posso escolher quais rótulos utilizar?
Não haverá cobranças separadas para cada rótulo. Serão geradas cobranças pela duração do vídeo processado pelo Rekognition. Você pode optar por rótulos específicos (animais de estimação e pacotes) ou escolher usar os três rótulos (pessoas, animais de estimação e pacotes) ao configurar o processamento da transmissão.
P: É necessário ter uma transmissão contínua de vídeo para o Amazon Rekognition?
Não é necessário transmitir vídeo continuamente para o Amazon Rekognition.
P: Preciso criar uma nova transmissão do Kinesis Video Streams (KVS) para usar o Streaming Video Events?
O Amazon Rekognition Streaming Video Events funciona com transmissões novas e existentes do Kinesis Video Streams. Basta integrar as transmissões relevantes do KVS à API do Amazon Rekognition Streaming Video Events para começar a usar a análise de vídeos nessas transmissões.
P: Quando o Amazon Rekognition me enviará uma notificação?
O Amazon Rekognition começa a processar a transmissão de vídeo após a detecção de movimento. Você pode configurar a duração do processamento dessa transmissão de vídeo (até 120 segundo por evento). Assim que detectar um objeto de interesse na transmissão, o Amazon Rekognition enviará uma notificação a você. Essa notificação inclui o tipo de objeto detectado, a caixa delimitadora, uma imagem ampliada do objeto e o carimbo de data/hora.
P: Qual a resolução e a taxa de fps compatíveis com a detecção de rótulos?
Para manter baixos tanto o custo como a latência, o Amazon Rekognition Streaming Video Events oferece suporte para transmissões de vídeo com resolução de até 1080p. O Rekognition processa a transmissão de vídeo a 5 fps.
P: Quais codecs e formatos de arquivo são compatíveis para a transmissão de vídeo?
O Amazon Rekognition Video oferece suporte a arquivos H.264 no formato MPEG-4 (.mp4) ou MOV.
P: Qual a duração máxima de vídeo processado por evento?
Você pode processar até 120 segundos de vídeo por evento.
P: Posso escolher uma área específica do quadro da transmissão de vídeo para ser processada?
Sim, como parte da configuração do seu StreamProcessor, você pode escolher a região de interesse que deseja processar no quadro. O Amazon Rekognition só processará a área do quadro que for especificada.
P: Quantas transmissões de vídeo simultâneas posso processar com o Amazon Rekognition?
O Amazon Rekognition Streaming Video Events pode processar 600 sessões simultâneas por cliente da AWS. Entre em contato com o gerente da conta se precisar aumentar esse limite.
Amazon Rekognition Stored Video Analysis
P: Quais tipos de entidades o Amazon Rekognition Video pode detectar?
O Amazon Rekognition Video pode detectar objetos, cenas, pontos de referência, rostos, celebridades, textos e conteúdo inadequado em vídeos. Você também pode procurar rostos que aparecem em um vídeo usando seu próprio repositório ou coleção de imagens de rostos.
P: Quais tipos de formatos de arquivo e codecs são suportados pelo Amazon Rekognition Video?
O Amazon Rekognition Video suporta arquivos H.264 no formato MPEG-4 (.mp4) ou MOV. Se seus arquivos de vídeo usarem um codec diferente, você poderá transcodificá-los para o formato H.264 usando o AWS Elemental MediaConvert.
P: Como funcionam as APIs assíncronas do Amazon Rekognition Video?
O Amazon Rekognition Video pode processar vídeos armazenados em um bucket do Amazon S3. Você pode usar um conjunto de operações assíncronas: inicie a análise de vídeo chamando uma operação Start, como StartLabelDetection, para detectar objetos e cenas. O status de conclusão da solicitação é publicado em um tópico do Amazon Simple Notification Service (SNS). Para obter o status de conclusão do tópico do Amazon SNS, você pode usar uma fila do Amazon Simple Queue Service (SQS) ou uma função do AWS Lambda. Depois que você conhece o status de conclusão, chama uma operação Get, como GetLabelDetection, para obter os resultados da solicitação. Para obter a lista das APIs do Amazon Rekognition Video disponíveis, consulte esta página.
P: Como posso encontrar a linha do tempo de cada detecção em um vídeo?
O Amazon Rekognition Video retorna os resultados de rótulo de acordo com o registro de data e horário ou segmentos do vídeo. Você pode escolher como organizar esses resultados através do parâmetro de entrada AggregateBy na API GetLabelDetection.
- Quando os resultados de rótulo são organizados por registros de data e horário, cada rótulo será retornado toda vez que o Amazon Rekognition Video detectar o rótulo na linha de tempo do vídeo. Por exemplo, se “Cão” for detectado em 2000 ms e 4000 ms, o Amazon Rekognition Video retornará 2 entradas de rótulo para “Cão”, um com 2000 ms e outro com 4000 ms.
- Quando os resultados de rótulo são organizados em segmentos de vídeo, o Amazon Rekognition Video retorna o segmento de vídeo sempre que um rótulo é detectado entre diversos quadros consecutivos. Um segmento de vídeo é definido por um registro de data e horário inicial e um final, além da duração. Por exemplo, se “Cão” for detectado em 2 quadros consecutivos em 2000 ms e 4000 ms, o Amazon Rekognition Video retornará 1 entrada de rótulo para “Cão” com o registro de tempo inicial de 2000 ms, e o registro de tempo final de 4000 ms, com duração de 2000 ms.
Para saber mais sobre registros de data e horário e segmentos, bem como conferir um exemplo de requisição de API, visite Detecção de rótulos em um vídeo.
P: Quantos trabalhos simultâneos de análise de vídeo posso executar com o Amazon Rekognition Video?
Você pode processar até 20 tarefas simultâneas com o Amazon Rekognition Video. Para obter mais detalhes sobre limites, consulte nossa página de limites.
P: Qual resolução de vídeo devo usar?
O Amazon Rekognition Video lida automaticamente com uma ampla variedade de resoluções e qualidade de vídeo. Recomendamos o uso de 720 p (1280 × 720 pixels) a 1080 p (1920 x 1080 pixels) ou suas resoluções equivalentes em outras taxas para obter os melhores resultados. Vídeos de baixa resolução (como QVGA ou 240 p) e de qualidade muito baixa podem afetar negativamente a qualidade dos resultados.
P: O que é determinação de caminhos de pessoas?
Com o Rekognition Video, você pode encontrar o caminho de cada pessoa na linha do tempo do vídeo. O Rekognition Video detecta pessoas mesmo quando a câmera está em movimento e, para cada pessoa, retorna uma caixa delimitadora e a face, juntamente com os atributos de face e os timestamps. Em aplicativos de varejo, isso permite gerar insights de clientes, como o modo como os clientes se movem pelos corredores de um shopping center ou quanto tempo eles esperam nas filas de pagamento.
Media Analysis usando o Amazon Rekognition Video
P: Quais tipos de segmentos de análise de mídia o Amazon Rekognition Video pode detectar?
O Amazon Rekognition Video pode detectar os seguintes tipos de segmentos de entidades para análise de mídia:
- Quadros pretos: os vídeos geralmente contêm uma curta duração de quadros pretos vazios, sem áudio, usados como dicas para inserir anúncios ou para demarcar o final de um segmento de programa, como, por exemplo, uma cena ou os créditos de abertura. Com o Amazon Rekognition Video, é possível detectar essas sequências de quadros pretos para automatizar a inserção de anúncios, o conteúdo do pacote para o VOD e demarcar vários segmentos ou cenas do programa. Os quadros pretos com áudio (como desaparecimentos graduais ou narrações) são considerados como conteúdo e não retornados.
- Créditos: o Amazon Rekognition Video ajuda a identificar automaticamente os quadros exatos onde os créditos iniciais e finais começam e terminam para um filme ou programa de TV. Com essas informações, você pode gerar “marcadores de excesso” ou prompts de visualização interativos, como “Next Episode” (Próximo episódio) ou “Skip Intro” (Pular introdução) em aplicações VOD. O Amazon Rekognition Video é treinado para lidar com uma grande variedade de estilos de crédito inicial e final, que variam desde simples créditos contínuos até créditos mais desafiadores, além do conteúdo, créditos em cenas ou créditos estilizados em conteúdo de anime.
- Disparo: um disparo é uma série de fotos consecutivas inter-relacionadas, tiradas de forma contígua por uma única câmera e representando uma ação contínua no tempo e no espaço. Com o Amazon Rekognition Video, é possível detectar o início, o fim e a duração de cada disparo, além uma contagem de todos os disparos de uma parte do conteúdo. Os metadados de disparos podem ser usados para aplicações como, por exemplo, criar vídeos promocionais usando disparos selecionados, gerar um conjunto de miniaturas de visualização, que evitam conteúdo de transição entre os disparos, e inserir anúncios em pontos que não atrapalham a experiência do visualizador, como no meio de uma tomada quando alguém está falando.
- Barras de cores: o Amazon Rekognition Video permite detectar seções de vídeo que exibem barras de cores SMPTE ou EBU, que são um conjunto de cores exibidas em padrões específicos, a fim de garantir que as cores sejam calibradas corretamente em monitores de transmissão, programas e câmeras. Para obter informações sobre barras de cores SMPTE, consulte barra de cores SMPTE. Esses metadados são úteis para preparar o conteúdo para aplicações VOD, removendo segmentos da barra de cores do conteúdo ou para detectar problemas como perda de sinais de transmissão em uma gravação, quando as barras de cores são mostradas continuamente como um sinal padrão em vez de como conteúdo.
- Listas: listas são seções, normalmente no início de um vídeo, que contêm metadados de texto sobre o episódio, estúdio, formato de vídeo, canais de áudio e muito mais. O Amazon Rekognition pode identificar o início e o fim dessas listas, tornando mais fácil para os operadores usarem os metadados de texto ou simplesmente removerem a lista ao preparar o conteúdo para a visualização final.
- Logotipos de estúdio: logotipos de estúdio são sequências que mostram os logotipos ou emblemas do estúdio de produção envolvido na realização da apresentação. O Amazon Rekognition pode identificar essas sequências, tornando mais fácil para os operadores revisá-las para identificar os estúdios.
- Conteúdo: são partes do programa de TV ou do filme que contêm o programa ou elementos relacionados. Molduras pretas, créditos, barras de cores, listas e logotipos de estúdio não são considerados conteúdo. O Amazon Rekognition Video permite que você detecte o início e o fim de cada segmento de conteúdo no vídeo, o que permite vários usos, como detectar o tempo de execução do programa ou encontrar certos segmentos que atendem a propósitos específicos. Por exemplo, uma recapitulação rápida do episódio anterior no início do vídeo é um tipo de conteúdo. Da mesma forma, o conteúdo de bônus pós-crédito pode aparecer após o término dos créditos. E, alguns vídeos podem ter conteúdo “sem texto” no final do vídeo, que é um conjunto de todo o conteúdo do programa que contém texto sobreposto, mas com esse texto removido para possibilitar a internacionalização em outro idioma. Depois que todos os segmentos de conteúdo são detectados com o Amazon Rekognition Video, você pode aplicar conhecimento de domínio específico, como “meus vídeos sempre começam com uma recapitulação” para categorizar ainda mais cada segmento ou enviá-los para revisão humana.
O Amazon Rekognition Video fornece o início, o fim, a duração e os códigos de tempo para cada entidade detectada e fornece carimbo de data/hora (milissegundos), código de formato SMPTE e opções de número de quadro para cada um.
P: Como inicio a análise de mídia usando o Amazon Rekognition Video?
Os recursos de análise de mídia estão disponíveis na API de detecção de segmento do Amazon Rekognition Video. Esta é uma API assíncrona composta de duas operações: StartSegmentDetection para iniciar a análise e GetSegmentDetection para obter os resultados da análise. Para começar a usar, consulte a documentação.
Se quiser visualizar os resultados da análise de mídia ou experimentar outros serviços da Amazon AI, como o Amazon Transcribe, com seus próprios vídeos, use a aplicação Media Insights, um framework sem servidor e aplicação de demonstrativo para gerar facilmente insights e desenvolver aplicações para o seu vídeo, recursos de áudio, texto e imagem, usando os serviços do AWS Machine Learning and Media. Você pode facilmente ativar sua própria aplicação de demonstração usando o modelo AWS CloudFormation fornecido para experimentar seus próprios vídeos e visualizar os resultados da análise.
P: O que é um código de hora preciso do quadro?
Os códigos de tempo precisos do quadro fornecem o número exato do quadro para um segmento relevante de vídeo ou de entidade. As empresas de mídia geralmente processam códigos de hora usando o formato SMPTE (Society of Motion Picture and Television Engineers) horas:minutos:segundos:número do quadro, por exemplo, 00:24:53:22.
P: O quadro de detecção de segmento do Amazon Rekognition Video é preciso?
Sim, a API de detecção de segmento do Amazon Rekognition Video fornece códigos de hora SMPTE com quadros precisos, além de registro de data e hora em milissegundos para o início e o final de cada detecção.
P: Com quais tipos de formatos de taxa de quadros a detecção de segmento do Amazon Rekognition Video pode lidar?
A detecção de segmento do Amazon Rekognition Video lida automaticamente com padrões de número inteiro, fracionário e de perda de quadros para taxas de quadros entre 15 e 60 fps. Por exemplo, taxas de quadros comuns como 23.976 fps, 25 fps, 29.97 fps e 30 fps são suportadas pela detecção de segmento. As informações de taxa de quadros são utilizadas para fornecer códigos de hora precisos de quadros em cada caso.
P: Quais opções de filtro posso utilizar?
Você pode especificar a confiança mínima para cada tipo de segmento ao fazer a solicitação de API. Por exemplo, você pode filtrar qualquer segmento abaixo da pontuação de confiança de 70%. Para detecção de quadro preto, você também pode controlar a luminância máxima do pixel que considera ser um pixel preto, por exemplo, um valor de 40 para uma faixa de cor de 0 a 255. Além disso, você também pode controlar qual porcentagem de pixels em um quadro precisa atender a esses critérios de luminância de pixel preto para que o quadro seja classificado como preto, por exemplo, 99%. Esses filtros permitem que você considere a qualidade e os formatos de vídeo variados ao detectar quadros pretos. Por exemplo, vídeos recuperados de arquivos de fita podem ser barulhentos e ter um nível de quadro preto diferente em comparação com um vídeo digital moderno. Para obter mais detalhes, consulte esta página.
Faturamento
P: Como o Amazon Rekognition conta o número de imagens processadas?
Para APIs que aceitam imagem como entradas, o Amazon Rekognition conta o número real de imagens analisadas como sendo o número de imagens processadas. DetectLabels, DetectModerationLabels, DetectFaces, IndexFaces, RecognizeCelebrities, SearchFaceByImage e Image Properties pertencem a esta categoria. Para a API CompareFaces, na qual duas imagens constituem uma entrada, somente a imagem de origem é contada como unidade das imagens processadas.
Para chamadas de API que não precisam de imagem como parâmetro de entrada, o Amazon Rekognition conta cada chamada de API como uma imagem processada. O SearchFaces pertence a esta categoria.
As outras APIs de reconhecimento do Amazon Rekognition – ListFaces, DeleteFaces, CreateCollection, DeleteCollection e ListCollections – não entram na contagem das imagens processadas.
P: Como o Amazon Rekognition conta o número de minutos de vídeo processados?
Para os vídeos arquivados, o Amazon Rekognition conta os minutos de vídeo que são processados com sucesso pela API e os mede para faturação. Para os streamings de vídeo ao vivo, você é cobrado por partes de cinco segundos de vídeo que processamos com sucesso.
P: Por quais APIs o Amazon Rekognition cobra?
O Amazon Rekognition Image cobra pelas seguintes APIs: DetectLabels, DetectModerationLabels, DetectText, DetectFaces, IndexFaces, RecognizeCelebrities, SearchFaceByImage, CompareFaces, SearchFaces e Image Properties. As cobranças do Amazon Rekognition Video são baseadas na duração, em minutos, do vídeo processado de forma bem-sucedida pelas APIs StartLabelDetection, StartFaceDetection, StartFaceDetection, StartTextDetection, StartContentModeration, StartPersonTracking, StartCelebrityRecognition, StartFaceSearch e StartStreamProcessor.
P: Quanto custa o Amazon Rekognition?
Consulte a página de definição de preço do Amazon Rekognition para obter informações sobre a definição de preço atual.
P: Haverá cobrança pelos vetores de funcionalidades que eu armazenar nas minhas coleções de faces?
Sim. O Amazon Rekognition cobra USD 0,01 por 1.000 vetores de face por mês. Para obter detalhes, consulte a página de definição de preço.
P: O Amazon Rekognition participa do nível gratuito da AWS?
Sim. Como parte do nível de uso gratuito da AWS, você pode começar a usar gratuitamente o Amazon Rekognition. Ao se cadastrarem, novos clientes do Amazon Rekognition podem analisar até 5.000 imagens gratuitamente a cada mês, durante os primeiros 12 meses. Você pode usar todas as APIs do Amazon Rekognition, exceto o Image Properties, com esse nível gratuito e armazenar até 1.000 faces sem cobrança alguma. Além disso, os clientes do Amazon Rekognition Video podem analisar 1.000 minutos de vídeo grátis, por mês, durante o primeiro ano.
P: Os preços incluem impostos?
Para obter detalhes sobre os impostos, consulte Ajuda sobre impostos da Amazon Web Services.
Integração à AWS
P: O Amazon Rekognition Video funciona com imagens armazenadas no Amazon S3?
Sim. Você pode começar a analisar as imagens armazenadas no Amazon S3 simplesmente ao apontar a API do Amazon Rekognition para o bucket do S3. Não é necessário mover seus dados. Para obter mais detalhes sobre como usar objetos do S3 com chamadas da API do Amazon Rekognition, veja o nosso exercício de detecção de rótulos.
P: Posso usar o Amazon Rekognition com imagens armazenadas em um bucket Amazon S3 de outra região?
Não. Verifique se o bucket Amazon S3 que deseja usar está na mesma região que o endpoint da API do Amazon Rekognition.
P: Como faço para processar múltiplos arquivos de imagem em lote usando o Amazon Rekognition?
Você pode processar as imagens do Amazon S3 em lote usando as etapas descritas no nosso exemplo de Processamento em lote do Amazon Rekognition no GitHub.
P: Como posso usar o AWS Lambda com o Amazon Rekognition?
O Amazon Rekognition fornece acesso perfeito ao AWS Lambda e lhe permite levar a análise de imagem baseada em trigger aos datastores da AWS, como Amazon S3 e Amazon DynamoDB. Para usar o Amazon Rekognition com o AWS Lambda, siga as etapas descritas aqui e selecione o esquema do Amazon Rekognition.
P: O Amazon Rekognition trabalha com o AWS CloudTrail?
Sim. O Amazon Rekognition aceita o registro em log das seguintes ações como eventos nos arquivos de log do CloudTrail: CreateCollection, DeleteCollection, CreateStreamProcessor, DeleteStreamProcessor, DescribeStreamProcessor, ListStreamProcessors e ListCollections. Para obter mais detalhes sobre as chamadas de API do Amazon Rekognition integradas ao AWS CloudTrail, consulte Como registrar chamadas de API do Amazon Rekognition com AWS CloudTrail.
Privacidade de dados
P: As entradas de imagem e vídeo processadas pelo Amazon Rekognition são armazenadas? E como elas são usadas pela AWS?
O Amazon Rekognition pode armazenar e usar as entradas de imagem e vídeo processadas pelo serviço unicamente para fornecer e manter o serviço e, a menos que você opte por não participar, conforme estipulado abaixo, para aprimorar e desenvolver a qualidade do Amazon Rekognition e outras tecnologias de machine learning/inteligência artificial da Amazon. O uso do seu conteúdo é importante para o aprimoramento contínuo da experiência de cliente do Amazon Rekognition, incluindo o desenvolvimento e o treinamento de tecnologias relacionadas. Não usamos nenhuma informação de identificação pessoal contida no conteúdo para direcionar produtos, serviços ou marketing para você ou para seus usuários finais. A sua confiança, a sua privacidade e a segurança do seu conteúdo são a nossa maior prioridade. Para isso, implementamos controles técnicos e físicos adequados e sofisticados, incluindo a criptografia de dados ociosos e em trânsito, projetados para evitar acesso ou divulgação de conteúdo sem a sua autorização e garantir que o nosso uso seja compatível com os compromissos que assumimos com você. Consulte https://thinkwithwp.com/compliance/data-privacy-faq/ para obter mais informações. Você pode optar por não ter suas informações de imagem e vídeo usadas para aprimorar ou desenvolver a qualidade do Amazon Rekognition e de outras tecnologias de machine learning/inteligência artificial da Amazon, usando uma política de desativação da AWS Organizations. Para obter informações sobre como optar por não participar, consulte Gerenciando a política de desativação de serviços de IA.
P: Posso excluir as entradas de imagem e vídeo armazenadas pelo Amazon Rekognition?
Sim. É possível solicitar a exclusão de entradas de imagem e de vídeo associadas à sua conta; basta entrar em contato com o AWS Support. A exclusão de entradas de imagem e vídeo pode degradar sua experiência com o Amazon Rekognition.
P: Quem tem acesso ao meu conteúdo processado e armazenado pelo Amazon Rekognition?
Somente funcionários autorizados terão acesso ao seu conteúdo que é processado pelo Amazon Rekognition. A sua confiança, a sua privacidade e a segurança do seu conteúdo são a nossa maior prioridade. Para isso, implementamos controles técnicos e físicos adequados e sofisticados, incluindo a criptografia de dados ociosos e em trânsito, projetados para evitar acesso ou divulgação de conteúdo sem a sua autorização e garantir que o nosso uso seja compatível com os compromissos que assumimos com você. Consulte https://thinkwithwp.com/compliance/data-privacy-faq/ para obter mais informações.
P: Meu conteúdo processado e armazenado pelo Amazon Rekognition ainda é de minha propriedade?
Você sempre mantém a propriedade do conteúdo. Somente usaremos o seu conteúdo com o seu consentimento.
P: O conteúdo processado pelo Amazon Rekognition é movido para fora da região da AWS na qual estou usando o Amazon Rekognition?
Todo o conteúdo processado pelo Amazon Rekognition é criptografado e armazenado em repouso na região da AWS na qual você está usando o Amazon Rekognition. A menos que você opte por não participar, conforme especificado abaixo, algumas partes do conteúdo processado pelo Amazon Rekognition poderão ser armazenadas em outra região da AWS exclusivamente para o aprimoramento e o desenvolvimento contínuos da experiência do cliente do Amazon Rekognition e de outras tecnologias de machine learning/inteligência artificial da Amazon. É possível solicitar a exclusão de entradas de imagem e de vídeo associadas à sua conta; basta entrar em contato com o AWS Support. A sua confiança, a sua privacidade e a segurança do seu conteúdo são a nossa maior prioridade. Para isso, implementamos controles técnicos e físicos adequados e sofisticados, incluindo a criptografia de dados ociosos e em trânsito, projetados para evitar acesso ou divulgação de conteúdo sem a sua autorização e garantir que o nosso uso seja compatível com os compromissos que assumimos com você. Consulte https://thinkwithwp.com/compliance/data-privacy-faq/ para obter mais informações. Seu conteúdo não será armazenado em outra região da AWS se você optar por não ter seu conteúdo usado para melhorar e desenvolver a qualidade do Amazon Rekognition e de outras tecnologias de machine learning/inteligência artificial da Amazon. Para obter informações sobre como optar por não participar, consulte Gerenciando a política de desativação de serviços de IA.
P: Posso usar o Amazon Rekognition em conexão com websites, programas ou outros aplicativos direcionados ou criados para crianças menores de 13 anos de idade e sujeitos à Children’s online privacy protection act (COPPA – Lei de proteção da privacidade online da criança)?
Sim. Sujeito à sua conformidade com os Termos de serviços do Amazon Rekognition, que incluem a sua obrigação de disponibilizar qualquer notificação exigida e obter todos os consentimentos parentais verificáveis exigidos pela COPPA, você poderá usar o Amazon Rekognition em conexão com websites, programas ou outros aplicativos direcionados ou criados, de modo integral ou parcial, para crianças menores de 13 anos.
P: Como posso determinar se um site, programa ou aplicativo está sujeito à COPPA?
Para obter informações sobre os requisitos da COPPA e as diretrizes para determinar se um site, programa ou outro aplicativo está sujeito à COPPA, consulte diretamente os recursos disponibilizados e mantidos pela United States Federal Trade Commission (Comissão Federal de Comércio dos Estados Unidos). Esse website também contém informações sobre como determinar se um serviço é direcionado, de modo integral ou parcial, a crianças menores de 13 anos ou procurado por elas.
P: O Amazon Rekognition é um serviço qualificado para a HIPAA?
O Amazon Rekognition é um serviço qualificado para a HIPAA, coberto pelo AWS Business Associate Addendum (BAA da AWS – Adendo de associado comercial da AWS). Se você tiver um BAA da AWS em vigor, o Amazon Rekognition só usará, divulgará e manterá suas Protected Health Information (PHI – Informações protegidas de saúde) de acordo com os termos do seu BAA da AWS.
Controle de acesso
P: Como faço para controlar o acesso do usuário ao Amazon Rekognition?
O Amazon Rekognition é integrado ao AWS Identity and Access Management (IAM). As políticas do AWS IAM podem ser usadas de forma que somente os usuários autorizados tenham acesso às APIs do Amazon Rekognition. Para obter mais detalhes, consulte a página Autenticação e controle de acesso ao Amazon Rekognition.
Denunciar abuso
P: Como posso denunciar um abuso potencial do Amazon Rekognition?
Se você suspeitar que o Amazon Rekognition está sendo usado de uma maneira abusiva ou ilegal, ou que ele está infringindo seus direitos ou os direitos de outras pessoas, denuncie o fato e a AWS investigará o problema.
IA responsável
P: A AWS tem algum material sobre IA responsável para o Rekognition?
Sim, temos materiais de IA responsáveis para a AWS em geral e especificamente para o Rekognition. Para a AWS em geral, temos a orientação de IA responsável e a Política de IA responsável da AWS, que fornecem aos clientes recursos e ferramentas para ajudá-los a criar e usar sistemas de IA com responsabilidade. Além disso, temos Cartões de serviço de IA da AWS para determinados recursos do Amazon Rekognition. Os cartões de serviço de IA explicam os casos de uso pretendidos para o Rekognition, como o Rekognition usa machine learning e as principais considerações sobre o design e o uso responsáveis do Rekognition.
Leis de biometria
P: O que devo saber sobre leis de biometria?
Leis de biometria são um tipo de lei de privacidade que se aplica à coleta, processamento ou uso de dados biométricos, como a digitalização da geometria da mão ou do rosto. Elas podem ser aplicadas quando seu serviço envolve coleta, processamento ou uso de dados biométricos. Muitas leis de biometria têm requisitos específicos para notificar e obter o consentimento de seus usuários finais e atender às solicitações de exclusão. Você deve entender esses requisitos quando aplicáveis aos seus serviços, como parte do modelo de responsabilidade compartilhada. Se você notificar e obter consentimento, deverá fazê-lo em nome de qualquer provedor de serviços relevante, incluindo a AWS (identificada como sua prestadora de serviços). Além disso, você pode excluir vetores usando a operação DeleteFaces ou DeleteCollection. Consulte o exemplo de aviso e linguagem de consentimento para provedores de serviços abaixo e consulte os Termos de serviço para conhecer os requisitos relacionados ao uso do Rekognition.
P: A AWS tem algum exemplo de linguagem para fornecer notificação e consentimento em nome dos prestadores de serviços?
Sim, abaixo está um exemplo de idioma para fornecer notificação e consentimento em nome de prestadores de serviços (como a AWS). Você é responsável por fazer sua própria avaliação sobre se o uso do Rekognition atende aos requisitos legais aplicáveis, e esse exemplo de linguagem não é aconselhamento jurídico.
[O nome da sua empresa (“Empresa”)] usa um provedor de serviços para [descrever a finalidade, por exemplo, “serviços de verificação de identidade”]. Identificadores biométricos e informações biométricas (“dados biométricos”), especificamente, [descrevem o tipo de dados em questão] podem ser coletados, armazenados e usados por esse provedor de serviços em nome da [Empresa] com a finalidade de fornecer o serviço. A [Empresa] instruirá seu prestador de serviços a destruir permanentemente os dados biométricos armazenados em nome da [Empresa] quando a finalidade inicial de coletar ou obter esses dados for satisfeita, quando você solicitar que os dados sejam excluídos ou antes, se exigido por lei. Os dados biométricos podem ser transmitidos entre a [Empresa] e seu provedor de serviços conforme necessário para fornecer e receber esse serviço. Você concorda que a [Empresa] e seu provedor de serviços coletem, usem e armazenem seus dados biométricos conforme descrito acima.
Saiba mais sobre os preços do Amazon Rekognition