Últimamente me he centrado en la narración de datos y su importancia a la hora de comunicar eficazmente los resultados del análisis de datos para generar valor. Sin embargo, mi formación técnica, muy cercana al mundo de la gestión de datos y sus problemas, me impulsó a reflexionar sobre lo que la gestión de datos necesita para garantizar que se puedan construir historias basadas en datos rápidamente. Llegué a una conclusión que a menudo se da por sentada pero que siempre es bueno tener en cuenta. No se puede confiar únicamente en los datos para crear historias basadas en datos. También es necesario que un sistema de gestión de datos considere al menos dos aspectos. ¿Quieres saber cuáles? Intentemos averiguarlo en este artículo.
Qué cubriremos en este artículo:
- Introduciendo datos
- Sistemas de gestión de datos
- Narración de datos
- Gestión de datos y narración de datos
1. Introducción de datos
Continuamente hablamos, utilizamos y generamos datos. Pero ¿te has preguntado qué son los datos y qué tipos de datos existen? Intentemos definirlo.
Los datos son hechos, números o símbolos sin procesar que pueden procesarse para generar información significativa. Hay diferentes tipos de datos:
- Datos estructurados Son datos organizados en un esquema fijo, como SQL o CSV. Las principales ventajas de este tipo de datos son que es fácil obtener información. El principal inconveniente es que la dependencia del esquema limita la escalabilidad. Una base de datos es un ejemplo de este tipo de datos.
- Datos semiestructurados está parcialmente organizado sin un esquema fijo, como JSON XML. Las ventajas son que son más flexibles que los datos estructurados. La principal desventaja es que la estructura de metanivel puede contener datos no estructurados. Algunos ejemplos son texto anotado, como tweets con hashtags.
- Datos no estructurados, como audio, vídeo y texto, no están anotados. La principal ventaja es que no están estructurados, por lo que es fácil almacenarlos. También son muy escalables. Sin embargo, son difíciles de gestionar. Por ejemplo, es difícil extraer significado. El texto sin formato y las fotografías digitales son ejemplos de datos no estructurados.
Para organizar datos cuyo volumen va aumentando con el tiempo, es fundamental gestionarlos adecuadamente.
2. Gestión de datos
La gestión de datos es la práctica de ingerir, procesar, proteger y almacenar los datos de una organización, que luego se utilizan para la toma de decisiones estratégicas para mejorar los resultados comerciales (1). Hay tres sistemas centrales de gestión de datos:
- Almacén de datos
- Lago de datos
- Casa del lago de datos
2.1 Almacén de datos
Un almacén de datos solo puede manejar procesos de postextracción, transformación y carga (ETL) de datos estructurados. Una vez elaborados, los datos se pueden utilizar para informes, paneles de control o minería. La siguiente figura resume la estructura de un almacén de datos.
Fig. 1: La arquitectura de un almacén de datos
Los principales problemas con los almacenes de datos son:
- Escalabilidad – no son escalables
- Datos no estructurados – no gestionan datos no estructurados
- Datos en tiempo real – No gestionan datos en tiempo real.
2.2 Lago de datos
Un lago de datos puede ingerir datos sin procesar tal como están. A diferencia de un almacén de datos, un lago de datos gestiona y proporciona formas de consumir o procesar datos estructurados, semiestructurados y no estructurados. La ingesta de datos sin procesar permite que un lago de datos ingiera datos históricos y en tiempo real en un sistema de almacenamiento sin procesar.
El lago de datos agrega una capa de metadatos y gobernanza, como se muestra en la siguiente figura, para que los datos sean consumibles por las capas superiores (informes, paneles y minería de datos). La siguiente figura muestra la arquitectura de un lago de datos.
Fig. 2: La arquitectura de un lago de datos
La principal ventaja de un lago de datos es que puede ingerir cualquier tipo de datos rápidamente ya que no requiere ningún procesamiento preliminar. El principal inconveniente de un lago de datos es que, dado que ingiere datos sin procesar, no es compatible con el sistema semántico y de transacciones del almacén de datos.
2.3 Casa del lago de datos
Con el tiempo, el concepto de lago de datos ha evolucionado hasta convertirse en la casa del lago de datos, un lago de datos aumentado que incluye soporte para transacciones en su parte superior. En la práctica, un data lakehouse modifica los datos existentes en el data lake, siguiendo la semántica del data warehouse, como se muestra en la siguiente figura.
Fig. 3: La arquitectura de un lago de datos
El data lakehouse ingiere los datos extraídos de fuentes operativas, como datos estructurados, semiestructurados y no estructurados. Lo proporciona a aplicaciones de análisis, como informes, paneles, espacios de trabajo y aplicaciones. Un lago de datos consta de los siguientes componentes principales:
- Lago de datos, que incluye formato de tabla, formato de archivo y almacén de archivos.
- Capa de ciencia de datos y aprendizaje automático
- motor de consultas
- Capa de gestión de metadatos
- Capa de gobierno de datos.
2.4 Generalización de la arquitectura del sistema de gestión de datos
La siguiente figura generaliza la arquitectura del sistema de gestión de datos.
Fig. 4. La arquitectura general de un sistema de gestión de datos.
Un sistema de gestión de datos (almacén de datos, lago de datos, lago de datos o lo que sea) recibe datos como entrada y genera una salida (informes, paneles, espacios de trabajo, aplicaciones,…). Los insumos son generados por personas y los resultados son nuevamente explotados por personas. Por lo tanto, podemos decir que tenemos personas en los insumos y personas en los resultados. Un sistema de gestión de datos va de persona a persona.
Las personas que ingresan incluyen personas que generan los datos, como personas que usan sensores, personas que responden encuestas, personas que escriben una reseña sobre algo, estadísticas sobre personas, etc. Las personas en producción pueden pertenecer a una de las siguientes tres categorías:
- Público en generalcuyo objetivo es aprender algo o entretenerse
- Profesionalesque son personas técnicas que desean comprender los datos.
- Ejecutivos quienes toman decisiones.
En este artículo nos centraremos en los ejecutivos ya que generan valor.
Pero que es valor? El Diccionario Cambridge ofrece diferentes definiciones de valor (2).
- El cantidad de dinero que se puede recibir por algo
- El importancia o valor de algo para alguien
- Valores: Las creencias que tienen las personas, especialmente sobre lo que está bien y lo que está mal y lo que es más importante en la vida, que controlan su comportamiento.
Si aceptamos la definición de valor como la cantidad de dinero, quien toma decisiones podría generar valor para la empresa para la que trabaja e indirectamente para las personas de la empresa y las personas que utilizan los servicios o productos ofrecidos por la empresa. Si aceptamos la definición de valor como la importancia de algo, el valor es esencial para las personas que generan los datos y otras personas externas, como se muestra en la siguiente figura.
Fig. 5: El proceso de generación de valor
En este escenario, comunicar datos de manera adecuada y efectiva a los tomadores de decisiones se vuelve crucial para generar valor. Por esta razón, todo el proceso de datos debe diseñarse para comunicar datos a la audiencia final (tomadores de decisiones) con el fin de generar valor.
3. Narración de datos
Hay tres formas de comunicar datos:
- Informes de datos Incluye descripción de los datos, con todos los detalles de las fases de exploración y análisis de los datos.
- Presentación de datos selecciona solo datos relevantes y los muestra a la audiencia final de forma organizada y estructurada.
- Narración de datos construye una historia sobre datos.
Centrémonos en la narración de datos. Data Storytelling consiste en comunicar los resultados de un proceso de análisis de datos a una audiencia a través de una historia. En función de tu audiencia, elegirás una adecuada
- Lenguaje y tono: El conjunto de palabras (lenguaje) y la expresión emocional que se transmite a través de ellas (tono)
- Contexto: El nivel de detalles que agregar a tu historia, según la sensibilidad cultural de la audiencia.
El Data Storytelling debe considerar los datos y toda la información relevante asociada a los datos (contexto). El contexto de los datos se refiere a la información de fondo y los detalles pertinentes que rodean y describen un conjunto de datos. En las canalizaciones de datos, este contexto de datos se almacena como metadatos (3). Metadatos debe proporcionar respuestas a lo siguiente:
- ¿Quién recopiló datos?
- De qué se tratan los datos
- Cuando se recogieron los datos
- Dónde se recogieron los datos
- ¿Por qué se recopilaron los datos?
- Cómo se recopilaron los datos
3.1 La importancia de los metadatos
Repasemos el proceso de gestión de datos desde una perspectiva de narración de datos, que incluye datos y metadatos (contexto).
Fig. 6: El proceso de gestión de datos desde la perspectiva de la narración de datos
El sistema de gestión de datos comprende dos elementos: gestión de datos, donde el actor principal es el ingeniero de datos y análisis de datos, donde el actor principal es el científico de datos.
El ingeniero de datos debe centrarse no sólo en los datos sino también en los metadatos, lo que ayuda al científico de datos a construir el contexto en torno a los datos. Hay dos tipos de sistemas de gestión de metadatos:
- Gestión pasiva de metadatos, que agrega y almacena metadatos en un catálogo de datos estático (por ejemplo, Apache Hive)
- Gestión activa de metadatos, que proporciona metadatos dinámicos y en tiempo real (por ejemplo, Apache Atlas)
El científico de datos debe construir la historia basada en datos.
4. Gestión de datos y narración de datos
Combinar la gestión de datos y la narración de datos significa:
- Considerando las personas finales que se beneficiarán de los datos. Un sistema de Gestión de Datos va de persona a persona.
- Considere los metadatos, que ayudan a construir las historias más poderosas.
Si analizamos todo el proceso de datos desde la perspectiva del resultado deseado, descubrimos la importancia de las personas detrás de cada paso. Podemos generar valor a partir de los datos solo si miramos a las personas detrás de los datos.
Resumen
¡Felicidades! Acaba de aprender a ver la gestión de datos desde la perspectiva de la narración de datos. Debes considerar dos aspectos, además de los datos:
- Personas detrás de los datos
- Metadatos, que dan contexto a sus datos.
Y, sobre todo, ¡nunca olvides a las personas! ¡La narración de datos te ayuda a ver las historias detrás de los datos!
Referencias
(1)IBM. ¿Qué es la gestión de datos?
(2) El Diccionario de Cambridge. Valor.
(3) Peter Crocker. Guía para mejorar el contexto de los datos: quién, qué, cuándo, dónde, por qué y cómo
Recursos externos
Uso de la narración de datos para convertir los datos en valor (discusión)
Angélica Lo Duca (Medio) (twitter.com/alod83″ rel=”noopener”/>@alod83) es investigador del Instituto de Informática y Telemática del Consejo Nacional de Investigación (IIT-CNR) en Pisa, Italia. Es profesora de “Periodismo de datos” en el Máster en Humanidades Digitales de la Universidad de Pisa. Sus intereses de investigación incluyen Ciencia de Datos, Análisis de Datos, Análisis de Texto, Datos Abiertos, Aplicaciones Web, Ingeniería de Datos y Periodismo de Datos, aplicados a la sociedad, el turismo y el patrimonio cultural. Es autora del libro Comet for Data Science, publicado por Packt Ltd., del próximo libro Data Storytelling in Python Altair and Generative ai, publicado por Manning, y coautora del próximo libro Learning and Operating Presto, de O. 'Reilly Medios. Angélica también es una entusiasta escritora de tecnología.
<script async src="//platform.twitter.com/widgets.js” charset=”utf-8″>