El patrimonio de datos está evolucionando y la gestión de la calidad de los datos debe evolucionar junto con él. A continuación se presentan tres enfoques comunes y hacia dónde se dirige el campo en la era de la IA.
¿Son palabras diferentes para lo mismo? ¿Enfoques únicos al mismo problema? ¿Algo completamente distinto?
Y lo que es más importante: ¿realmente necesitas los tres?
Como todo en la ingeniería de datos, la gestión de la calidad de los datos está evolucionando a la velocidad del rayo. El meteórico ascenso de los datos y la IA en las empresas ha hecho que la calidad de los datos sea un riesgo de día cero para las empresas modernas y EL problema que deben resolver los equipos de datos. Con tanta terminología superpuesta, no siempre está claro cómo encaja todo, o si encaja.
Pero contrariamente a lo que algunos podrían argumentar, el monitoreo de la calidad de los datos, las pruebas de los datos y la observabilidad de los datos no son enfoques contradictorios o incluso alternativos para la gestión de la calidad de los datos: son elementos complementarios de una única solución.
En este artículo, profundizaré en los detalles de estas tres metodologías, dónde funcionan mejor, dónde se quedan cortos y cómo puede optimizar sus prácticas de calidad de datos para impulsar la confianza en los datos en 2024.
Antes de que podamos comprender la solución actual, debemos comprender el problema y cómo ha cambiado con el tiempo. Consideremos la siguiente analogía.
Imagine que es un ingeniero responsable del suministro de agua local. Cuando aceptó el trabajo, la ciudad sólo tenía una población de 1.000 habitantes. Pero después de que se descubre oro debajo de la ciudad, su pequeña comunidad de 1.000 habitantes se transforma en una auténtica ciudad de 1.000.000 de habitantes.
¿Cómo podría eso cambiar la forma en que haces tu trabajo?
Para empezar, en un entorno pequeño, los puntos de falla son relativamente mínimos: si una tubería se cae, la causa raíz podría reducirse a uno de los dos culpables esperados (tuberías que se congelan, alguien cavando en la tubería de agua, lo habitual) y resolverse. con la misma rapidez con los recursos de uno o dos empleados.
Con las serpenteantes tuberías de 1 millón de nuevos residentes que diseñar y mantener, el ritmo frenético necesario para satisfacer la demanda y las capacidades (y visibilidad) limitadas de su equipo, ya no tiene la misma capacidad para localizar y resolver todos los problemas que esperaba. que aparezcan, y mucho menos esté atento a los que no aparecen.
El entorno de datos moderno es el mismo. Los equipos de datos han encontrado oro y las partes interesadas quieren participar en la acción. Cuanto más crece su entorno de datos, más desafiante se vuelve la calidad de los datos y menos efectivos serán los métodos tradicionales de calidad de los datos.
No están necesariamente equivocados. Pero tampoco son suficientes.
Para ser muy claros, cada uno de estos métodos intenta abordar calidad de los datos. Entonces, si ese es el problema, debes construir o comprar porque, en teoría, cualquiera de estos marcaría esa casilla. Aún así, el hecho de que todas estas sean soluciones de calidad de datos no significa que realmente resolverán su problema de calidad de datos.
Cuándo y cómo se deben utilizar estas soluciones es un poco más complejo que eso.
En términos más simples, se puede pensar que la calidad de los datos es el problema; pruebas y seguimiento como métodos para identificar problemas de calidad; y la observabilidad de datos como un enfoque diferente e integral que combina y amplía ambos métodos con funciones de visibilidad y resolución más profundas para resolver la calidad de los datos a escala.
O, para decirlo aún más simplemente, el monitoreo y las pruebas identifican problemas; la observabilidad de los datos identifica problemas y los hace procesables.
Aquí hay una ilustración rápida que podría ayudar a visualizar dónde encaja la observabilidad de los datos en el curva de madurez de la calidad de los datos.
Ahora, profundicemos en cada método con un poco más de detalle.
El primero de dos enfoques tradicionales para la calidad de los datos es la prueba de datos. Pruebas de calidad de datos (o simplemente prueba de datos) es un método de detección que emplea restricciones o reglas definidas por el usuario para identificar problemas conocidos específicos dentro de un conjunto de datos con el fin de validar la integridad de los datos y garantizar estándares de calidad de datos.
Para crear una prueba de datos, el propietario de la calidad de los datos escribiría una serie de scripts manuales (generalmente en SQL o aprovechando una solución modular como dbt) para detectar problemas específicos como tasas nulas excesivas o patrones de cadena incorrectos.
Cuando sus necesidades de datos (y, en consecuencia, sus necesidades de calidad de datos) son muy pequeñas, muchos equipos podrán obtener lo que necesitan a partir de simples pruebas de datos. Sin embargo, a medida que sus datos crecen en tamaño y complejidad, rápidamente se enfrentará a nuevos problemas de calidad de los datos y necesitará nuevas capacidades para resolverlos. Y ese momento llegará mucho más pronto que tarde.
Si bien las pruebas de datos seguirán siendo un componente necesario de un marco de calidad de datos, se quedan cortos en algunas áreas clave:
- Requiere conocimiento íntimo de los datos — Las pruebas de datos requieren que los ingenieros de datos tengan 1) suficiente conocimiento especializado del dominio para definir la calidad y 2) suficiente conocimiento de cómo los datos podrían dividirse para configurar pruebas para validarlos.
- Sin cobertura para problemas desconocidos — las pruebas de datos solo pueden informarle sobre los problemas que espera encontrar, no sobre los incidentes que no encuentra. Si una prueba no está escrita para cubrir un problema específico, las pruebas no lo encontrarán.
- No escalable — escribir 10 pruebas para 30 tablas es bastante diferente a escribir 100 pruebas para 3000.
- Visibilidad limitada — Las pruebas de datos solo prueban los datos en sí, por lo que no pueden indicarle si el problema es realmente un problema con los datos, el sistema o el código que los impulsa.
- Sin resolución — incluso si las pruebas de datos detectan un problema, no le permitirán estar más cerca de resolverlo; o comprender qué y a quién afecta.
En cualquier nivel de escala, las pruebas se convierten en datos equivalentes a gritar “¡fuego!” en una calle llena de gente y luego alejarse sin decirle a nadie dónde lo vio.
Otro enfoque tradicional, aunque algo más sofisticado, de la calidad de los datos, monitoreo de calidad de datos es una solución continua que monitorea e identifica continuamente anomalías desconocidas que se esconden en sus datos mediante la configuración manual de umbrales o el aprendizaje automático.
Por ejemplo, ¿sus datos llegan a tiempo? ¿Obtuviste la cantidad de filas que esperabas?
El principal beneficio del monitoreo de la calidad de los datos es que brinda una cobertura más amplia para datos desconocidos y libera a los ingenieros de datos de escribir o clonar pruebas para cada conjunto de datos para identificar manualmente problemas comunes.
En cierto sentido, se podría considerar que el monitoreo de la calidad de los datos es más holístico que las pruebas porque compara métricas a lo largo del tiempo y permite a los equipos descubrir patrones que no verían en una sola prueba unitaria de los datos para un problema conocido.
Desafortunadamente, el monitoreo de la calidad de los datos también falla en algunas áreas clave.
- Mayor costo de computación — el seguimiento de la calidad de los datos es caro. Al igual que las pruebas de datos, el monitoreo de la calidad de los datos consulta los datos directamente, pero debido a que está destinado a identificar elementos desconocidos, debe aplicarse ampliamente para que sea efectivo. Eso significa grandes costos de computación.
- Tiempo de obtención de valor lento — Los umbrales de monitoreo se pueden automatizar con el aprendizaje automático, pero aún así tendrás que construir cada monitor tú mismo primero. Eso significa que deberá codificar mucho para cada problema en el front-end y luego escalar manualmente esos monitores a medida que su entorno de datos crezca con el tiempo.
- Visibilidad limitada – Los datos pueden fallar por todo tipo de razones. Al igual que las pruebas, el monitoreo solo analiza los datos en sí, por lo que solo puede indicarle que ocurrió una anomalía, no por qué sucedió.
- Sin resolución — si bien el monitoreo ciertamente puede detectar más anomalías que las pruebas, aún no puede decirle qué se vio afectado, quién necesita saberlo o si algo de eso es importante en primer lugar.
Es más, como el seguimiento de la calidad de los datos sólo es más eficaz en entregando alertas, no administrarlas, es mucho más probable que su equipo de datos experimente fatiga alerta a escala de lo que son para mejorar realmente la confiabilidad de los datos con el tiempo.
Eso deja la observabilidad de los datos. A diferencia de los métodos mencionados anteriormente, la observabilidad de los datos se refiere a una integral Solución independiente del proveedor diseñada para proporcionar una cobertura completa de calidad de datos que sea escalable y procesable.
Inspirándose en las mejores prácticas de ingeniería de software, observabilidad de datos es un enfoque integral habilitado por IA para la gestión de la calidad de los datos que está diseñado para responder al qué, quién, por qué y cómo de los problemas de calidad de los datos dentro de una única plataforma. Compensa las limitaciones de los métodos tradicionales de calidad de datos aprovechando tanto las pruebas como el monitoreo de calidad de datos totalmente automatizado en un solo sistema y luego extiende esa cobertura a los niveles de datos, sistema y código de su entorno de datos.
Combinada con funciones de resolución y gestión de incidentes críticos (como protocolos de alerta y linaje automatizado a nivel de columna), la observabilidad de datos ayuda a los equipos de datos a detectar, clasificar y resolver problemas de calidad de los datos desde la ingesta hasta el consumo.
Es más, la observabilidad de los datos está diseñada para proporcionar valor de forma transversal al fomentar la colaboración entre equipos, incluidos ingenieros de datos, analistas, propietarios de datos y partes interesadas.
La observabilidad de los datos resuelve las deficiencias de la práctica tradicional de DQ de cuatro maneras clave:
- Sólida clasificación y resolución de incidentes — Lo más importante es que la observabilidad de los datos proporciona los recursos para resolver incidentes más rápidamente. Además de etiquetar y alertar, la observabilidad de datos acelera el proceso de causa raíz con un linaje automatizado a nivel de columna que permite a los equipos ver de un vistazo qué se ha visto afectado, quién necesita saberlo y dónde acudir para solucionarlo.
- Visibilidad completa — la observabilidad de datos extiende la cobertura más allá de las fuentes de datos hacia la infraestructura, las canalizaciones y los sistemas posteriores a la ingesta en los que sus datos se mueven y transforman para resolver problemas de datos para los equipos de dominio de toda la empresa.
- Tiempo de obtención de valor más rápido — la observabilidad de datos automatiza completamente el proceso de configuración con monitores basados en ML que brindan cobertura instantánea desde el primer momento sin codificación ni configuración de umbral, para que pueda obtener una cobertura más rápida que se escala automáticamente con su entorno con el tiempo ( junto con información personalizada y herramientas de codificación simplificadas para facilitar también las pruebas definidas por el usuario).
- Seguimiento del estado del producto de datos — la observabilidad de los datos también extiende el monitoreo y el seguimiento del estado más allá del formato de tabla tradicional para monitorear, medir y visualizar el estado de productos de datos específicos o activos críticos.
Todos hemos escuchado la frase “basura entra, basura sale”. Bueno, esa máxima es doblemente cierta para las aplicaciones de IA. Sin embargo, la IA no necesita simplemente una mejor gestión de la calidad de los datos para informar sus resultados; su gestión de la calidad de los datos también debe estar impulsada por la propia IA para maximizar la escalabilidad de los conjuntos de datos en evolución.
La observabilidad de los datos es la solución de facto (y posiblemente la única) de gestión de la calidad de los datos que permite a los equipos de datos empresariales entregar de manera efectiva datos confiables para la IA. Y parte de la forma en que logra esa hazaña es siendo también una solución habilitada para IA.
Al aprovechar la IA para la creación de monitores, la detección de anomalías y el análisis de la causa raíz, la observabilidad de los datos permite una gestión hiperescalable de la calidad de los datos para la transmisión de datos en tiempo real, arquitecturas RAG y otros. ai-use-cases/” rel=”noopener ugc nofollow” target=”_blank”>Casos de uso de IA.
A medida que el patrimonio de datos continúa evolucionando para la empresa y más allá, los métodos tradicionales de calidad de datos no pueden monitorear todas las formas en que su plataforma de datos puede fallar, ni ayudarlo a resolverlas cuando lo hacen.
Especialmente en la era de la IA, la calidad de los datos no es simplemente un riesgo empresarial sino también existencial. Si no puede confiar en la totalidad de los datos que se introducen en sus modelos, tampoco puede confiar en la salida de la IA. En la vertiginosa escala de la IA, los métodos tradicionales de calidad de datos simplemente no son suficientes para proteger el valor o la confiabilidad de esos activos de datos.
Para ser efectivos, tanto las pruebas como el monitoreo deben integrarse en una única solución independiente de la plataforma que pueda monitorear objetivamente todo el entorno de datos (datos, sistemas y código) de extremo a extremo, y luego dotar a los equipos de datos de los recursos para clasificar y resolver problemas más rápido.
En otras palabras, para que la gestión de la calidad de los datos sea útil, los equipos de datos modernos necesitan observabilidad de los datos.
Primer paso. Detectar. Segundo paso. Resolver. Tercer paso. Prosperar.