Cree un patrón de arquitectura de Data Mesh usando Amazon DataZone

Escrito por Maddyzeth Ariza, Data Architect; Diego Valencia, Data Architect y Lesly Reyes, Telco Solutions Architect

Las organizaciones buscan constantemente optimizar el uso de sus datos. A menudo, enfrentan desafíos como el acceso fragmentado y la capacidad limitada para descubrir datos valiosos. La arquitectura de Data Mesh surge como una solución convincente, que promueve un enfoque descentralizado en el que los dominios de datos poseen, administran y entregan productos de datos para el consumo de otros. Sin embargo, la implementación de una arquitectura data mesh requiere una infraestructura sólida para el intercambio, gobernanza y capacidad de descubrimiento de datos

El siguiente artículo presenta una arquitectura de referencia para construir una arquitectura data mesh en AWS, utilizando el servicio Amazon DataZone. Este servicio simplifica la adopción de este modelo al proporcionar un portal de datos centralizado para catalogar, descubrir, compartir y gobernar datos en toda la organización. Esta arquitectura permite a los productores de datos (dominios) publicar productos de datos con capacidades de autoservicio al tiempo que garantiza un acceso seguro y controlado para los consumidores de datos.

En este artículo, se presentarán las mejores prácticas para el uso del patrón de arquitectura data mesh. Además de una guía de cómo implementar el patrón en producción y los beneficios del servicio de Amazon DataZone para administrar los datos.

Tendencias y prácticas actuales en la gestión de datos

Muchas organizaciones hoy día se centran en soluciones de inteligencia artificial generativa (Generative AI), necesitando plataformas de datos robustas para impulsar la innovación. Las arquitecturas de datos tradicionales y centralizadas suelen tener dificultades para mantener el ritmo debido a problemas como silos de datos y cuellos de botella en el procesamiento, que retrasan el acceso a información valiosa y complican la gobernanza de los datos. Frente a esto, la arquitectura data mesh emerge como una solución prometedora, adoptando un enfoque descentralizado donde los dominios empresariales, como marketing y finanzas, no solo gestionan, sino que también preparan y publican sus datos como productos definidos y accesibles

Adoptar la arquitectura data mesh implica un cambio hacia considerar los datos como productos, destacando la importancia de la capacidad de descubrimiento y la usabilidad para los consumidores de datos a lo largo de la empresa. Los principios de diseño basado en dominios (DDD) se alinean bien con data mesh, fomentando una comprensión compartida y propiedad clara dentro de dominios específicos y promoviendo un mercado de datos que facilita la interacción entre equipos y una gobernanza de datos granular.

Sin embargo, la implementación efectiva de una arquitectura data mesh requiere consideraciones arquitectónicas y de planificación cuidadosas. Esta arquitectura de referencia proporciona un marco y mejores prácticas para guiar a las organizaciones en la implementación exitosa de una arquitectura data mesh en AWS utilizando Amazon DataZone.

Arquitectura Data Mesh

Arquitectura de referencia utilizando el modelo de datos Data Mesh

Una arquitectura data mesh se compone de unidades independientes llamadas dominios de datos. Estos dominios residen dentro de cuentas de lagos de datos individuales lo que genera la necesidad de compartir el acceso a los datos y tener un catálogo central. En el modelo de datos data mesh la información se recopila de varias fuentes y se almacena en las cuentas de AWS de los productores. Cada productor documenta cuidadosamente ubicación y estructura de estos datos en su propio Catálogo de Datos de AWS Glue. Esta documentación detallada, o metadatos, es posteriormente registrada por cada cuenta encargada de la ingestión de datos en Amazon DataZone. La figura siguiente ilustra cómo los productores se integran con el servicio de Amazon DataZone, facilitando una gestión eficiente y centralizada de los datos.

Entre las características del funcionamiento de esta arquitectura se encuentran:

Generación de Datos como Productos: Los productores definen conjuntos de datos específicos como productos dentro del catálogo de datos de DataZone de la cuenta de gobernanza central, creando descripciones detalladas sobre la organización de los datos (bases de datos, tablas, columnas y atributos), además de información sobre el linaje y la calidad de los datos.
Acceso y Gestión a través del Portal DataZone: El portal DataZone actúa como un espacio central donde los equipos de toda la organización pueden acceder a productos de datos, interactuar con metadatos, identificar activos valiosos y compartir información. Cuando un consumidor solicita acceso a un producto, verifica los metadatos y la calidad del dato antes de enviar una solicitud de acceso a través del portal, la cual es aprobada o denegada por el propietario de los datos.
Consumo y Aplicación de los Datos: Una vez otorgados los permisos, los consumidores como analistas y científicos de datos utilizan sus herramientas preferidas para consultar y analizar los datos. Esta estructura soporta también la creación y entrenamiento de soluciones robustas de inteligencia artificial generativa y aprendizaje automático, facilitando el desarrollo de nuevas tecnologías sobre la base de datos procesados.

Amazon DataZone para la administración de datos

Amazon DataZone es un servicio de administración de datos que permite a los clientes catalogar, compartir y gestionar de forma más rápida y sencilla los datos almacenados en la nube de AWS y fuentes de terceros. Con Amazon DataZone, los administradores de datos que supervisan los recursos de datos de una organización pueden administrar y controlar el acceso a los datos. El servicio proporciona controles diseñados para garantizar el acceso con el nivel adecuado de privilegios y contexto.

Creación de un catálogo central usando Amazon DataZone

En la esta sección mostraremos las capacidades y beneficios del servicio de Amazon DataZone para crear una arquitectura de data mesh.

Los desarrolladores se incorporan más rápido: Amazon DataZone proporciona los componentes básicos para los metadatos técnicos y la rápida incorporación de nuevos miembros a los equipos, crea una vista centralizada de elementos como tablas y columnas, que los desarrolladores necesitan para comprender y trabajar con los datos de manera eficiente.
Los usuarios empresariales hablan el mismo idioma: Amazon DataZone proporciona las herramientas para un catálogo de metadata y un glosario centralizado que actúa como traductor, definiendo activos de datos y elementos críticos en términos comerciales claros. Esto cierra la brecha entre los detalles técnicos y el significado comercial.
Vista integrada: el portal de datos de DataZone permite a los usuarios visualizar las conexiones entre diferentes piezas de datos. Debido a su posibilidad de integrarse con OpenLineage u otras herramientas de Data Lineage, la arquitectura permite a los usuarios y a la administración tener un mejor seguimiento de los datos.
Encuentre lo que necesita, explore cómo está construido: Amazon DataZone actúa como un mercado de datos centralizado que permite a los usuarios buscar activos de datos específicos y luego visualizar cómo se conectan y construyen esos activos. Esta funcionalidad ayuda a los usuarios no solo a encontrar los datos que necesitan, sino también a comprender su origen y cómo se relaciona con otros puntos de datos.
Garantice la calidad de los datos: con el mercado de datos centralizado, Amazon DataZone ayuda a los clientes a establecer estándares para la calidad de los datos y permite a los usuarios realizar un seguimiento del rendimiento de los elementos de datos críticos con respecto a esos estándares. Esto ayuda a garantizar la precisión y confiabilidad de los datos.
Propiedad y acceso claros: el portal de datos tiene las herramientas que define quien posee y administra los datos. Esto garantiza que los usuarios solo vean los datos a los que están autorizados a acceder, promoviendo la seguridad y privacidad de los datos.
Gestión de datos optimizada: dado que los propietarios de los datos son quienes mantienen el mercado de datos, es posible crear flujos de trabajo automatizados que simplifiquen la adición de nuevos activos de datos al sistema, la gestión de solicitudes de acceso y el mantenimiento del estado general del catálogo de datos. Esto se traduce en una experiencia de gestión de datos más eficiente y organizada

Buenas prácticas

Para el correcto uso de la arquitectura data mesh es necesario cumplir con 4 buenas prácticas identificadas a continuación.

Identificar los dominios de datos

Delineación clara del dominio: el primer paso implica identificar y definir dominios de datos dentro de la organización. Alinee los dominios de datos con funciones comerciales o áreas de especialización para garantizar que la propiedad se alinee con los patrones de uso de datos.
Responsabilidades de propiedad de los datos: Establezca pautas y responsabilidades claras para cada dominio de datos. Esto incluye la calidad de los datos, la preparación, la publicación y el mantenimiento continuo de los productos de datos.

Diseño y estandarización de productos de datos

Centrarse en el valor para el negocio: los productos de datos deben diseñarse teniendo en cuenta casos de uso empresarial claros. Garantizar que los productos de datos estén bien definidos y aborden las necesidades específicas de los consumidores de datos.
Modelos de datos estandarizados: si bien pueden existir algunas variaciones específicas de cada dominio, fomente prácticas consistentes de modelado de datos en todos los dominios. Esto promueve la interoperabilidad de los datos y simplifica el consumo de datos en toda la organización.
Calidad y linaje de los datos: Establecer controles de calidad de los datos y mecanismos de seguimiento del linaje de los datos dentro de cada dominio. Esto garantiza la precisión de los datos.

Identificar los dominios de datos

Marco de gobernanza centralizada: defina un marco de gobernanza de datos central que describa políticas y procedimientos para la calidad, la seguridad y el cumplimiento de los datos.
Control de acceso basado en roles (RBAC): implemente RBAC dentro de Amazon DataZone para restringir el acceso a los datos según los roles y responsabilidades del usuario.
Monitoreo y auditoría de datos: supervise continuamente los patrones de uso de datos y los registros de acceso dentro de Amazon DataZone. Esto permite la identificación proactiva de posibles riesgos de seguridad.

Colaboración y comunicación

Canales de comunicación de dominio: Establezca canales de comunicación claros entre los productores de datos (dominios) y los consumidores de datos. Esto fomenta la colaboración y garantiza que los consumidores de datos comprendan los matices y los patrones de uso adecuados de cada producto de datos
Métricas y medición: defina métricas para rastrear el éxito de la implementación de la malla de datos. Esto podría incluir tasas de adopción de productos de datos, tiempo para obtener información valiosa y satisfacción general del usuario con la calidad y accesibilidad de los datos.

Implementación del patrón en producción

Después de haber explorado la arquitectura data mesh y las mejores prácticas en AWS con Amazon DataZone, es hora de traducir este conocimiento en acción.

A continuación, se listan recomendaciones para llevar la solución a producción:

Definir y Catalogar: Identifique los dominios y productos de datos relevantes, asegurando que cada uno se alinee con las necesidades empresariales y esté correctamente catalogado en Amazon DataZone.
Estructurar y Configur: Organice una estructura de cuentas en AWS adecuada y configure Amazon DataZone para gestionar eficazmente el catálogo y los accesos.
Integración y Gestión de Datos: Desarrolle e implemente flujos de trabajo para la ingesta y manejo de datos, utilizando herramientas como AWS Glue para la transformación y el movimiento de datos.
Pruebas y Aceptación: Realice pruebas de calidad de los datos y pruebas de aceptación por parte de los usuarios para asegurar la funcionalidad y eficacia de la arquitectura implementada.
Despliegue y Monitoreo: Adopte un enfoque de implementación por fases, monitoreando continuamente el rendimiento y la adopción del sistema para ajustes y mejoras necesarias.

Con estos pasos, las organizaciones pueden maximizar el valor de sus datos a través de una arquitectura Data Mesh efectiva, apoyada por las soluciones de Amazon Web Services.

Conclusión

En esta publicación hemos ilustrado cómo Amazon DataZone facilita la implementación eficaz de la arquitectura data mesh. Queda claro que para lograr una implementación exitosa es crucial una planificación meticulosa y la adopción de las mejores prácticas establecidas. También hemos destacado la importancia de definir pautas claras y asignar responsabilidades específicas en cada dominio de datos, asegurando así un despliegue efectivo y coherente. Con estas estrategias, Amazon DataZone se presenta como una herramienta esencial en la optimización y gestión avanzada de los datos.

Si deseas profundizar más sobre patrones de gobernanza datos, este artículo te proporcionará más información. Si deseas investigar más sobre la arquitectura de datos data mesh puede consultar la siguiente página. Además puedes seguir aprendiendo con los blogs de AWS.

Autores

Diego Valencia es Arquitecto de datos de Servicios Profesionales en AmazonWeb Services

con experiencia en AI/ML y servicios de analítica.

Maddyzeth Ariza es Arquitecta de datos de Servicios Profesionales en Amazon

Web Services, con experiencia en lagos de datos, gobierno de datos y servicios de analítica.

Lesly Reyes Cabrera es Arquitecta de Soluciones en Amazon Web Services para la vertical de

telecomunicaciones enfocada en desarrollo de soluciones deAI/ML.

Revisores

Francisco Fagas es Arquitecto de Soluciones Senior en Amazon Web Services, basado en Chile

actualmente ayudando a los clientes de la región a lograr sus

desafíos en la nube. Con intereses en Machine Learning, analítica e IA DevOps.

Blog de Amazon Web Services (AWS)