Imagen por autor
En respuesta a las cambiantes necesidades tecnológicas, organizativas y comerciales, la arquitectura de datos ha evolucionado durante la última década aproximadamente. Pero ¿ha sido esta evolución lo suficientemente significativa? La mayoría de las organizaciones suelen tener una arquitectura de datos centralizada. Que, por diseño, consolida los datos bajo un solo paraguas, a menudo administrado por un equipo de datos dedicado.
Si bien es eficaz para garantizar la seguridad y una mejor gobernanza, la arquitectura de datos centralizada tiene sus limitaciones en términos de escalabilidad, flexibilidad y accesibilidad, entre otras.
Ingresar Malla de datos, un concepto (casi) análogo a los microservicios en la arquitectura de software. Data Mesh tiene como objetivo descentralizar la gestión de datos Así como los microservicios se centran en descentralizar los componentes de las aplicaciones. Distribuye la propiedad y la responsabilidad de los datos entre equipos de dominios específicos, reconociendo los datos como un activo estratégicomejor gestionado en su origen.
En este artículo, exploraremos Data Mesh, sus principios clave, factores a considerar y desafíos asociados con la adopción de una arquitectura de malla de datos.
El concepto de Data Mesh fue introducido por primera vez por Zhamak Dehghanien el artículo “Cómo pasar de un lago de datos monolítico a una malla de datos distribuida” que describe los principios y conceptos detrás de la malla de datos. Este artículo y las discusiones posteriores dentro de las comunidades de datos desempeñaron un papel importante en la popularización de la arquitectura de malla de datos.
A Malla de datos es un Enfoque contemporáneo de la arquitectura y gestión de datos. que se aleja de los modelos de datos centralizados tradicionales. Introduce una estructura descentralizada para organizar, distribuir y utilizar los activos de datos de una organización.
En una malla de datos, la propiedad y las responsabilidades de los datos se distribuyen entre equipos de dominios específicos o equipos de productos de datos, lo que les otorga autonomía para gestionar sus datos dentro de sus respectivos dominios.
Este enfoque descentralizado tiene como objetivo abordar las limitaciones asociadas con los modelos de datos centralizados, como desafíos de escalabilidad, silos de datos y tiempos de respuesta lentos a las necesidades cambiantes de datos. Al permitir que los equipos de dominios específicos administren sus datos de forma independiente, una malla de datos promueve una cultura de autonomía, agilidad y responsabilidad de los datos dentro de una organización. También es el manejo eficiente de diversas fuentes de datos manteniendo al mismo tiempo un enfoque en la calidad y relevancia de los datos.
La arquitectura Data Mesh se basa en un conjunto de principios diseñados para abordar los desafíos de escalar y administrar datos dentro y entre organizaciones. Estos principios proporcionan la base para un enfoque descentralizado y más escalable para la gestión de datos.
Imagen por autor
Propiedad orientada al dominio
En una malla de datos, La propiedad de los datos está descentralizada y distribuida entre varios dominios o unidades de negocio dentro de la organización.. Cada dominio es responsable de los datos generados y utilizados dentro de su área específica de especialización o funcionalidad. Este principio reconoce que los expertos en el dominio están mejor equipados para comprender y gestionar los datos dentro de sus respectivos dominios.
La propiedad orientada al dominio mejora la calidad y precisión de los datos porque las personas más cercanas a la fuente de datos tienen un conocimiento profundo de su contexto y pueden garantizar su integridad. También promueve un sentido de propiedad y responsabilidad por los datos, alentando a los equipos de dominio a mantener altos estándares de datos.
Datos como producto
Los datos en una malla de datos se tratan como un producto y no como un subproducto de las operaciones comerciales.. Cada dominio es responsable de entregar productos de datos bien definidos que están diseñados, empaquetados y puestos a disposición para el consumo de otros dominios dentro de la organización. Estos productos de datos tienen definiciones claras, mecanismos de acceso y acuerdos de nivel de servicio (SLA).
Tratar los datos como un producto anima a los productores de datos a centrarse en ofrecer datos valiosos y de alta calidad a los consumidores. También garantiza que los productos de datos se diseñen teniendo en cuenta las necesidades de los usuarios, haciendo que los datos sean más accesibles y utilizables para una gama más amplia de partes interesadas.
Infraestructura de datos de autoservicio
Data Mesh promueve el desarrollo de una infraestructura de datos de autoservicio que permite a los consumidores de datos, como analistas de datos, científicos de datos y usuarios comerciales, acceder y procesar datos de forma independiente. Esta infraestructura incluye catálogos de datos, mecanismos de descubrimiento de datos y canales de procesamiento de datos que permiten a los consumidores encontrar, comprender y utilizar datos sin una gran dependencia de equipos de ingeniería de datos centralizados.
Infraestructura de datos de autoservicio reduce los cuellos de botella y acelera el acceso a los datos empoderar a una gama más amplia de usuarios para trabajar con datos. democratiza los datos dentro de la organización, haciéndolos más accesibles y permitiendo una toma de decisiones y conocimientos más rápidos.
Gobernanza computacional federada
Para mantener la calidad, la seguridad y el cumplimiento de los datos en una arquitectura de datos descentralizada, la malla de datos emplea una gobernanza computacional federada. Cada dominio define y aplica sus propias políticas de gobernanza adaptadas a las necesidades específicas de sus datos. Si bien pueden existir estándares y directrices globales, los dominios individuales tienen la autonomía para gobernar sus activos de datos.
Este equilibra la necesidad de estándares de datos globales con la flexibilidad requerida por dominios individuales. Permite que los dominios adapten las prácticas de gobernanza a sus desafíos de datos únicos y, al mismo tiempo, garantiza que los datos sigan siendo seguros, conformes y de alta calidad.
Por lo tanto, estos cuatro principios clave de la malla de datos apuntan colectivamente a abordar los desafíos de escalar las operaciones de datos en grandes organizaciones mediante la promoción de:
- descentralización,
- pensamiento de producto de datos,
- autoservicio y
- gobernanza eficaz.
Al implementar estos principios, las organizaciones pueden desbloquear todo el potencial de sus activos de datos, mejorar la colaboración entre los equipos de dominio y hacer de los datos un recurso más valioso y accesible para todas las partes interesadas.
La transición a una malla de datos a menudo implica un cambio cultural significativo dentro de una organización. Una malla de datos fomenta colaboración, propiedad compartida y pensamiento de productos de datos, alineando las prácticas de datos más estrechamente con la cultura y los valores en evolución de la organización. A continuación se presentan algunos factores que las organizaciones podrían considerar al implementar una malla de datos.
Objetivos y estrategia empresarial
Cualquier cambio importante en la arquitectura de datos debe alinearse con las metas comerciales y los objetivos estratégicos más amplios de la organización.
La implementación de una malla de datos debe verse como un habilitador estratégico, que mejora la capacidad de la organización para aprovechar los datos de manera efectiva para lograr sus metas y objetivos generales.
Infraestructura existente
Las organizaciones deben evaluar y considerar su infraestructura de datos y sus inversiones actuales al evaluar la viabilidad de una malla de datos.
La transición a una malla de datos puede requerir ajustes en la infraestructura y la tecnología existentes, por lo que es esencial alinear estos aspectos con el nuevo enfoque.
Complejidad y escala de datos
Cuando las organizaciones enfrentan una creciente complejidad y escala de datos, deben considerar enfoques alternativos de gestión de datos. Una malla de datos ofrece escalabilidad y adaptabilidad, especialmente cuando se trata de entornos de datos cada vez más complejos y de gran escala.
Por lo tanto, una malla de datos es una buena opción cuando el volumen, la variedad o la velocidad de los datos dificultan su administración centralizada, o cuando los requisitos de datos son diversos entre diferentes unidades de negocios o dominios.
Gobernanza y cumplimiento de datos
Mantener la calidad, la privacidad, la seguridad y el cumplimiento de los datos es un aspecto desafiante de la gestión de datos, particularmente en entornos descentralizados.
Una estrategia de malla de datos debe abordar estas complejidades de manera efectiva, garantizando que se cumplan las prácticas de gobernanza de datos y los requisitos regulatorios.
Accesibilidad y propiedad de los datos
En organizaciones con fuentes de datos distribuidas y dominios diversos, la gestión de datos centralizada tradicional puede no ser suficiente. La implementación de una malla de datos se alinea propiedad de datos con equipos de dominio específicopermitiéndoles asumir la responsabilidad de sus datos, lo que puede ser particularmente valioso en tales entornos.
Además, para facilitar la toma de decisiones basada en datos en toda la organización, es fundamental hacer que los datos sean más accesibles. Una malla de datos democratiza el acceso a los datoslo que permite que una gama más amplia de usuarios acceda y utilice datos, lo que lleva a una mejor toma de decisiones en varios departamentos o equipos.
Pasar de una arquitectura de datos centralizada a una malla de datos no está exento de desafíos. En esta sección profundizamos en algunos de ellos, desde la gobernanza hasta el seguimiento.
Dato de governancia
En una malla de datos, la gobernanza de datos se vuelve más compleja porque los datos se distribuyen en múltiples dominios y equipos. Garantizar estándares consistentes de calidad de datos, privacidad, seguridad y cumplimiento en estos dominios puede ser un desafío:
- Establecer una propiedad clara de los datos y la responsabilidad de las tareas de gobernanza de datos, como la definición de esquemas de datos y controles de acceso, puede ser un desafío cuando participan varios equipos.
- Desarrollar y hacer cumplir políticas y prácticas de gobernanza de datos que se alineen con la naturaleza descentralizada de una malla de datos requiere una planificación cuidadosa.
Descubribilidad de datos
En una malla de datos descentralizada, descubrir y acceder a datos puede resultar un desafío. Garantizar que los datos estén catalogados, etiquetados y documentados adecuadamente es esencial para permitir la capacidad de descubrimiento de datos. Aquí hay algunas estrategias:
- Implementar prácticas efectivas de gestión de metadatos Proporcionar contexto y descripciones para conjuntos de datos, facilitando a los usuarios la comprensión de los recursos de datos disponibles.
- Desarrollar y mantener un catálogo de datos o repositorio de metadatos que permite a los usuarios buscar y encontrar conjuntos de datos relevantes de manera eficiente.
Propiedad de los datos
Una definición clara y consistente de propiedad de datos y responsabilidad para cada dominio de datos y producto de datos es crucial en una malla de datos. Determinar quién es responsable de mantener, actualizar y curar los datos puede resultar un desafío, especialmente cuando hay varias partes interesadas. Las organizaciones pueden abordar este desafío mediante:
- Garantizar que los propietarios de datos tengan la autoridad y los recursos necesarios para gestionar sus dominios de datos de forma eficaz.
- Establecer mecanismos para la resolución de conflictos o disputas relacionadas con la propiedad y responsabilidades de los datos.
Monitoreo y observabilidad
En una malla de datos, monitorear el estado, el rendimiento y la confiabilidad de las canalizaciones y productos de datos puede resultar complejo. Algunas estrategias incluyen:
- Implementación robusta herramientas de seguimiento y observabilidad y prácticas para rastrear la calidad, la latencia y el uso de los datos en diferentes dominios.
- Desarrollando Mecanismos de alerta y notificación. para identificar y abordar rápidamente problemas que puedan afectar disponibilidad o confiabilidad de los datos.
Hemos destacado algunos desafíos en la implementación de una malla de datos. Estos son más bien puntos de control que las organizaciones deben tener en cuenta al pasar a una arquitectura de malla de datos descentralizada.
Data Mesh, por lo tanto, es un cambio de paradigma en la arquitectura de datos, que ofrece soluciones a los desafíos de los modelos centralizados. Discutimos cómo son beneficiosos distribuir la propiedad de los datos, promover el pensamiento sobre productos de datos y permitir el acceso de autoservicio. Sin embargo, una implementación exitosa requiere una cuidadosa consideración de los factores culturales y tecnológicos, y un enfoque proactivo para la gobernanza de datos.
Bala Priya C. es un desarrollador y escritor técnico de la India. Le gusta trabajar en la intersección de matemáticas, programación, ciencia de datos y creación de contenido. Sus áreas de interés y experiencia incluyen DevOps, ciencia de datos y procesamiento del lenguaje natural. ¡Le gusta leer, escribir, codificar y tomar café! Actualmente, está trabajando para aprender y compartir sus conocimientos con la comunidad de desarrolladores mediante la creación de tutoriales, guías prácticas, artículos de opinión y más.
Bala Priya C. es un desarrollador y escritor técnico de la India. Le gusta trabajar en la intersección de matemáticas, programación, ciencia de datos y creación de contenido. Sus áreas de interés y experiencia incluyen DevOps, ciencia de datos y procesamiento del lenguaje natural. ¡Le gusta leer, escribir, codificar y tomar café! Actualmente, está trabajando para aprender y compartir sus conocimientos con la comunidad de desarrolladores mediante la creación de tutoriales, guías prácticas, artículos de opinión y más.