Información general

El servicio Amazon Textract extrae texto impreso, texto manuscrito y datos estructurados de las imágenes de los documentos. Dentro de este servicio, la característica AnalyzeID lee y extrae datos de texto estructurados de imágenes de documentos de identidad, que actualmente incluye licencias de conducir y pasaportes estadounidenses. Esta característica facilita a los clientes la automatización y la agilización del procesamiento de los documentos.

AnalyzeID opera en el texto que aparece en un documento de identidad para predecir pares de clave-valor explícitos e implícitos. AnalyzeID puede extraer pares de clave-valor explícitos, en los que aparece una clave (“Fecha de emisión”) en el documento y está alineada con el valor (“18/03/2018”), y pares de clave-valor implícitos en los que es posible que no aparezcan claves explícitas (“María” aparece en el centro de una licencia, pero no está marcada como “Nombre”). El servicio normaliza los pares de clave-valor en una taxonomía común de 21 claves conocidas, de manera que los clientes puedan comparar la información entre distintos tipos de ID. Por ejemplo, el servicio extrae el número de una licencia de conducir y el número de un pasaporte estadounidense, y los etiqueta a ambos como “Número de identificación del documento”. Para evaluar la precisión de AnalyzeID, comparamos estas predicciones con la realidad. Un anotador humano corrigió las claves y los valores reales. Cada par de clave-valor es un acierto si la predicción coincide con la realidad y un error en caso contrario. Las métricas de calidad, como la precisión, la recuperación y la F1 dependen de la cantidad de aciertos y errores.

Los documentos de identidad difieren entre las jurisdicciones (las licencias de conducir de Virginia son distintas de las licencias de California) y dentro de las jurisdicciones, ya que cada jurisdicción evoluciona sus documentos con el tiempo. Cada versión de un documento de identificación puede diferir según las claves incluidas y los valores permitidos para cada clave. Además, hay factores (denominados “variaciones confusas”) que dificultan el reconocimiento. Los diseños de los documentos pueden tener diseños gráficos complejos detrás del texto y plástico brillante u otros laminados superpuestos al texto. Los documentos pueden desgastarse, por ejemplo, debido a su transporte en un bolso o un bolsillo, lo que obstaculiza la lectura de la información principal. Por último, el documento puede estar mal iluminado, no verse claramente (por ejemplo, debido a una parte de la mano que sostiene el documento durante la captura) o haberse enfocado mal cuando se capturó la imagen. AnalyzeID está diseñada para reconocer el texto en este tipo de imágenes de documentos e ignorar las variaciones que generan confusión.

Casos de uso previstos y limitaciones

AnalyzeID está diseñada para utilizarse en licencias de conducir emitidas por los estados de EE. UU. y en pasaportes emitidos por el Gobierno de EE. UU. No está entrenada para utilizarse en documentos emitidos por gobiernos territoriales (por ejemplo, Puerto Rico) ni en otros instrumentos de identificación, como las tarjetas del programa Global Entry o los certificados de nacimiento. AnalyzeID es compatible con documentos emitidos en los últimos quince años (2007). Esto abarca alrededor de tres iteraciones de actualizaciones de diseño a nivel estatal, que se realizan aproximadamente cada cinco años. Este periodo es válido para los documentos que no están vencidos; las licencias de conducir estadounidenses tienen vigencia durante doce años como máximo y los pasaportes estadounidenses tienen vigencia durante diez años como máximo.

AnalyzeID permite el paso de extracción de texto en una variedad de aplicaciones desarrolladas por el cliente. Estas aplicaciones suelen ayudar a los usuarios finales a completar tareas en línea. Por ejemplo, una aplicación de servicios financieros puede inscribir a usuarios nuevos con menos necesidad de escritura y errores, ya que permite al usuario escanear el contenido de su licencia de conducir. Del mismo modo, una aplicación de atención médica puede permitir a los usuarios confirmar su dirección u otra información de cuenta más rápidamente, y evitar errores a la hora de programar las citas. Las aplicaciones se diferencian principalmente por lo siguiente: 1. los pares de clave-valor relevantes, 2. el proceso de captura de imágenes empleado y 3. la resolución de las imágenes enviadas. Cuando se integra AnalyzeID en el flujo de trabajo de cualquier aplicación, los clientes deben evaluar la necesidad de supervisión humana y respaldar la revisión de los resultados de AnalyzeID por parte de revisores humanos, según sea necesario.

Diseño de AnalyzeID de Textract

Machine learning: AnalyzeID está diseñada con tecnologías de ML y reconocimiento óptico de caracteres (OCR). AnalyzeID funciona de la siguiente manera: toma una imagen de un documento de identidad como entrada. Un modelo de OCR identifica el texto del documento. Un segundo modelo de machine learning procesa la imagen completa del documento y la salida del OCR para devolver los nombres y el contenido de los campos como pares de clave-valor. Consulte la documentación para desarrolladores para obtener más información sobre las llamadas a la API.

Expectativas de rendimiento: las variaciones confusas diferirán entre las aplicaciones del cliente. Esto significa que el rendimiento también diferirá entre las aplicaciones. Considere dos aplicaciones diferentes de verificación de nombre y dirección: A y B. La aplicación A permite al agente de seguridad de un edificio comparar el nombre y la dirección que figuran en la licencia de conducir de un visitante con el nombre y la dirección de la persona que se anunció que visitaría el lugar. La aplicación B permite a un reclutador recopilar información personal de un candidato durante una entrevista en video. Con A, el agente de seguridad del edificio utiliza un escáner de documentos de identidad empresarial para capturar imágenes de licencias bien iluminadas, bien enfocadas y nítidas. Con B, el entrevistado utiliza su propia cámara web para capturar una imagen de su licencia mientras la sostiene, lo que aumenta el riesgo de que la imagen se vea borrosa, tenga algún reflejo o no se vea correctamente. Dado que A y B tienen diferentes calidades de imagen de entrada debido a los diferentes dispositivos y procesos de captura de imágenes, es probable que tengan tasas de error diferentes, incluso suponiendo que cada aplicación se despliegue perfectamente con Textract.

Metodología basada en pruebas: utilizamos varios conjuntos de datos para evaluar el rendimiento. Ningún conjunto de datos de evaluación proporciona una imagen absoluta del rendimiento. Esto se debe a que los conjuntos de datos de evaluación varían según su composición demográfica (la cantidad y el tipo de grupos definidos), la cantidad de variaciones de confusión (calidad del contenido, adecuación para el propósito), los tipos y la calidad de las etiquetas disponibles y otros factores. Medimos el rendimiento de Textract mediante la prueba en conjuntos de datos de evaluación que contienen imágenes de documentos de identidad. El rendimiento general de un conjunto de datos se representa mediante la puntuación F1 (F1), que equilibra el porcentaje de campos pronosticados que son correctos (precisión) con el porcentaje de campos correctos que se incluyen en la predicción (recuperación). Las puntuaciones F1 están limitadas por el rango [0,1]. Si los límites de confianza de los pares de clave-valor cambian, la puntuación F1 se modifica. Los grupos de un conjunto de datos se pueden definir según atributos clave (como la jurisdicción, la longitud del apellido), variables confusas (como el diseño gráfico, la calidad de la imagen) o una combinación de ambos. Los diferentes conjuntos de datos de evaluación varían según estos y otros factores. Debido a esto, las puntuaciones F1, tanto generales como de grupos, varían de un conjunto de datos a otro. Teniendo en cuenta esta variación, nuestro proceso de desarrollo examina el rendimiento de AnalyzeID mediante varios conjuntos de datos de evaluación, toma medidas para aumentar la puntuación F1 en los grupos en los que AnalyzeID tuvo un rendimiento inferior al esperado, trabaja para mejorar el grupo de conjuntos de datos de evaluación y luego, repite.

Equidad y sesgo: nuestro objetivo es que AnalyzeID extraiga campos de texto de los documentos de identidad con alta precisión, independientemente de la jurisdicción de la licencia o de los atributos demográficos de la persona representada por el documento. Para lograrlo, utilizamos el proceso de desarrollo iterativo descrito anteriormente. Como parte de este proceso, creamos conjuntos de datos para capturar la variedad de jurisdicciones (estados de EE. UU.) y plantillas abordadas por AnalyzeID, bajo una serie de condiciones de calidad de imagen. Realizamos pruebas rutinarias en conjuntos de datos de imágenes de documentos para los que tenemos pares de clave-valor fiables. Descubrimos que AnalyzeID funciona bien en todos los atributos jurisdiccionales y demográficos. Por ejemplo, en un conjunto de datos interno compuesto por los anversos de las licencias de conducir estadounidenses de 50 estados, la precisión F1 más baja entre estados es del 95 %, y la F1 más baja para grupos demográficos definidos por edad, condición de veterano y longitud del apellido es del 99 %. Como los resultados dependen de AnalyzeID, del flujo de trabajo del cliente y del conjunto de datos de evaluación, recomendamos a los clientes que prueben AnalyzeID en su propio contenido.

Explicabilidad: los clientes tienen acceso a las puntuaciones de confianza de cada campo de texto, que pueden aprovechar para establecer umbrales de confianza y comprender mejor los resultados de AnalyzeID. La clave predicha proporciona información sobre la predicción del valor.

Robustez: maximizamos la robustez con una serie de técnicas, lo que incluye el uso de grandes conjuntos de datos de entrenamiento que capturan diversos tipos de variaciones entre muchas personas. Las entradas ideales para AnalyzeID contienen imágenes que mayormente no tienen sombras, reflejos u otras obstrucciones, con el documento orientado en posición vertical dentro del marco de la imagen. Sin embargo, los modelos de AnalyzeID están entrenados para ser resilientes incluso cuando las entradas no tienen las características ideales.

Privacidad y seguridad: AnalyzeID captura y procesa texto. Las entradas y los resultados nunca se comparten entre los clientes.  Los clientes pueden optar por no recibir formación sobre el contenido de los clientes a través de AWS Organizations u otros mecanismos de exclusión que proporcionemos. Consulte la sección 50.3 de las condiciones de servicio de AWS y las preguntas frecuentes sobre privacidad de datos de AWS para obtener más información. Para obtener información sobre privacidad y seguridad específica del servicio, consulte la sección Privacidad de datos de las Preguntas frecuentes de Textract y la documentación de seguridad de Amazon Textract.

Transparencia: cuando sea apropiado para el caso de uso, se recomienda a los clientes que incorporan AnalyzeID en su flujo de trabajo que divulguen el uso de ML a los usuarios finales y a otras personas afectadas por la aplicación, y que ofrezcan la posibilidad de proporcionar comentarios para mejorar los flujos de trabajo. En su documentación, los clientes también pueden hacer referencia a esta tarjeta de servicio de IA.

Gobernanza: contamos con metodologías rigurosas para desarrollar nuestros servicios de IA de AWS de manera responsable, lo que incluye un proceso de desarrollo de productos retroactivo que incorpora la IA responsable en la fase de diseño, consultas de diseño y evaluaciones de implementación a cargo de expertos en datos y ciencia de IA responsables y dedicados, pruebas de rutina, revisiones con los clientes y desarrollo, difusión y entrenamiento de las prácticas recomendadas.

Prácticas recomendadas de despliegue y optimización del rendimiento

Alentamos a los clientes a crear y operar sus aplicaciones de manera responsable, tal como se describe en la guía Responsible Use of Machine Learning de AWS. Esto incluye la implementación de prácticas de IA responsables para abordar dimensiones fundamentales como la equidad y el sesgo, la robustez, la explicabilidad, la privacidad y la seguridad, la transparencia y la gobernanza.
 
Diseño del flujo de trabajo: definimos el rendimiento como la experiencia de los usuarios finales que interactúan con una aplicación desarrollada por el cliente que incluye AnalyzeID para la extracción de texto. El rendimiento de cualquier aplicación que utilice AnalyzeID depende del diseño del flujo de trabajo del cliente, que incluye (1) la variación de la imagen, (2) el límite de confianza, (3) la supervisión humana, (4) la coherencia del flujo de trabajo y (5) las pruebas periódicas para detectar la desviación del rendimiento.
 
  1. Variación de la imagen: las imágenes ideales están relativamente libres de sombras, reflejos u otras obstrucciones, con el documento capturado en un ángulo directo y orientado en posición vertical dentro del marco de la imagen. Los clientes pueden ayudar a sus usuarios finales con la orientación adecuada para capturar buenas imágenes.

  2. Límite de confianza: los clientes pueden ajustar el rendimiento estableciendo un filtro o un límite en los pares de clave-valor que produce AnalyzeID, en función de la puntuación de confianza asignada a ese par. Para lograr una mayor precisión, elija un límite alto. Para lograr una mejor recuperación, elija un límite más bajo. Para establecer un límite adecuado, un cliente puede recopilar un conjunto representativo de entradas, etiquetar los campos de texto de cada una y probar umbrales más altos o más bajos hasta que esté satisfecho con la experiencia del usuario.

  3. Supervisión humana: si el flujo de trabajo de la aplicación de un cliente implica un caso de uso delicado o de alto riesgo, como una decisión que afecta los derechos de una persona o su acceso a los servicios esenciales, la revisión humana debe ser incorporada en el flujo de trabajo de la aplicación cuando corresponda. La extracción automática de clave-valor con AnalyzeID puede servir como herramienta para reducir el esfuerzo que implican las soluciones completamente manuales y para permitir a los humanos revisar y evaluar rápidamente los documentos de identidad.

  4. Consistencia: los clientes deben establecer y aplicar políticas sobre los tipos de imágenes de entrada permitidas, y sobre la manera en que los humanos combinan el uso de umbrales de confianza y su propio juicio para determinar los resultados finales. Estas políticas deben ser consistentes en los grupos demográficos. La modificación inconsistente de las imágenes de entrada o los límites de confianza podría generar resultados injustos para diferentes grupos demográficos.

  5. Desviación del rendimiento: un cambio en los tipos de imágenes que un cliente envía a AnalyzeID, o un cambio en el servicio, puede generar resultados diferentes. Para abordar estos cambios, los clientes deberían plantearse volver a probar periódicamente el rendimiento de Textract y ajustar su flujo de trabajo si fuera necesario.

Más información

Glosario

La equidad y el sesgo se refieren a la forma en la que un sistema de IA afecta a las diferentes subpoblaciones de usuarios (por ejemplo, por género o etnia).

La explicabilidad se refiere a disponer de mecanismos para comprender y evaluar los resultados de un sistema de IA.

La robustez se refiere a disponer de mecanismos para garantizar que un sistema de IA funcione de manera confiable.

La privacidad y la seguridad se refieren a la protección de los datos contra el robo y su exposición.

La gobernanza se refiere a disponer de procesos para definir, implementar y hacer cumplir prácticas responsables de IA dentro de una organización.

La transparencia se refiere a la comunicación de la información sobre un sistema de IA para que las partes interesadas puedan tomar decisiones informadas sobre el uso que hacen del sistema.