¿Cuáles son las preguntas de investigación?
¿Por qué diablos los necesitamos?
Estamos haciendo un “mal” análisis, ¿verdad?
Las preguntas de investigación son la base del estudio de investigación. Guían el proceso de investigación enfocándose en temas específicos que el investigador investigará. Las razones por las que son esenciales incluyen, entre otras: para lograr enfoque y claridad; como guía para la metodología; establecer la relevancia del estudio; ayudar a estructurar el informe; Ayudar al investigador a evaluar los resultados e interpretar los hallazgos. Al aprender cómo se realiza un análisis “malo”, abordamos las siguientes preguntas:
(1) ¿Las fuentes de datos son válidas (no inventadas)?
(2) ¿Cómo se manejaron los valores faltantes?
(3) ¿Cómo pudiste fusionar conjuntos de datos diferentes?
(4) ¿Cuáles son las variables de respuesta y predictoras?
(5) ¿Es lineal la relación entre las variables respuesta y predictoras?
(6) ¿Existe una correlación entre la respuesta y las variables predictivas?
(7) ¿Podemos decir que existe una relación causal entre las variables?
(8) ¿Qué explicación le daría a un cliente interesado en la relación entre estas dos variables?
(9) ¿Encontró correlaciones falsas en los conjuntos de datos elegidos?
(10) ¿Qué aprendizaje obtuvo al realizar este proyecto?
¿Cómo llevamos a cabo un estudio sobre
¿Correlaciones espurias?
Para investigar la presencia de correlaciones espurias entre variables, se realizó un análisis exhaustivo. Los conjuntos de datos abarcaron diferentes dominios de factores económicos y ambientales que fueron recopilados y afirmados como provenientes de fuentes públicas. Los conjuntos de datos contenían variables sin relación causal aparente pero exhibían correlación estadística. Los conjuntos de datos elegidos fueron los datos de las acciones de Apple, el primario, y las temperaturas máximas diarias en la ciudad de Nueva York, el secundario. Los conjuntos de datos abarcaron el período comprendido entre enero de 2017 y diciembre de 2022.
Se utilizaron rigurosas técnicas estadísticas para analizar los datos. Se calculó un coeficiente de correlación de Pearson para cuantificar la fuerza y la dirección de las relaciones lineales entre pares de variables. Para completar este análisis, se utilizaron diagramas de dispersión de las temperaturas máximas diarias de 5 años en la ciudad de Nueva York, gráficos de velas de la tendencia de las acciones de Apple de 5 años y un gráfico de doble eje de las temperaturas máximas diarias versus la tendencia de los calcetines para visualizar el relación entre variables e identificar patrones o tendencias. Las áreas que siguió esta metodología fueron:
Conjunto de datos primario: stocks/quote/historical?Symbol=537%3A908440&Year=2019&Month=1&Range=12″ rel=”noopener ugc nofollow” target=”_blank”>Historial del precio de las acciones de Apple | Precios históricos de las acciones de la empresa AAPL | Página comercial de contenido financiero
Conjunto de datos secundario: Temperaturas máximas diarias en la ciudad de Nueva York desde enero de 2017 hasta diciembre de 2022: https://www.extremeweatherwatch.com/cities/new-york/year-{year}
Se afirmó que los datos eran de origen público y estaban disponibles para su reproducibilidad. La captura de datos durante un período de cinco años brindó una visión significativa de los patrones, tendencias y linealidad. Las lecturas de temperatura observaron tendencias estacionales. Para la temperatura y las existencias, hubo mínimos y picos en los puntos de datos. Tenga en cuenta que la temperatura estaba en Fahrenheit, un entorno meteorológico. Usamos entornos astronómicos para manipular aún más nuestros datos y presentar una falsedad más fuerte. Si bien los datos se pueden descargar como archivos csv o xls, para esta tarea se utilizó la API de raspado web Beautiful Soup de Python.
A continuación, se comprobaron los datos en busca de valores faltantes y cuántos registros contenía cada uno. Los datos meteorológicos contenían la fecha, la temperatura máxima diaria, la temperatura mínima diaria y los datos de las acciones de Apple contenían la fecha, el precio de apertura, el precio de cierre, el volumen, el precio de las acciones y el nombre de las acciones. Para fusionar los conjuntos de datos, las columnas de fecha debían estar en formato de fecha y hora. Una combinación interna coincidió con los registros y descartó los no coincidentes. Para las acciones de Apple, la fecha y el precio de cierre diario representaron las columnas de interés. Para el clima, la fecha y la temperatura máxima diaria representaron las columnas de interés.
Para hacer lo 'malo' de la manera correcta, hay que
masajea los datos hasta encontrar el
relación que estás buscando…
Nuestro enfoque anterior no produjo los resultados esperados. Entonces, en lugar de utilizar la temporada de verano de las temperaturas de 2018 en cinco ciudades de EE. UU., extrajimos cinco años de temperaturas máximas diarias para la ciudad de Nueva York y el desempeño de las acciones de Apple desde enero de 2017 hasta diciembre de 2022. Al realizar un análisis exploratorio, vimos correlaciones débiles. a través de las estaciones y los años. Entonces, nuestro siguiente paso fue convertir la temperatura. En lugar de meteorológico, elegimos astronómico. Esto nos dio correlaciones “significativas” entre estaciones.
Con el nuevo enfoque implementado, notamos que fusionar los conjuntos de datos era problemático. Los campos de fecha eran diferentes, mientras que para el clima la fecha era mes y día. Para las acciones, la fecha estaba en formato año-mes-día. Abordamos esto convirtiendo la columna de fecha de cada conjunto de datos a fecha y hora. Además, cada columna de fecha se ordenó en orden cronológico o cronológico inverso. Esto se resolvió ordenando ambas columnas de fecha en orden ascendente.
La naturaleza espuria de las correlaciones
aquí se muestra cambiando de
estaciones meteorológicas (primavera: marzo-mayo,
Verano: junio-agosto, otoño: septiembre-noviembre, invierno:
diciembre-febrero) que se basan en el clima
patrones en el hemisferio norte, a
estaciones astronómicas (primavera: abril-junio,
Verano: julio-septiembre, otoño: octubre-diciembre, invierno:
enero-marzo) que se basan en la inclinación de la Tierra.
Una vez completada la exploración, un punto clave en nuestro análisis de correlación espuria fue determinar si las variables de interés se correlacionan. Observamos que la primavera de 2020 tuvo una correlación de 0,81. Luego determinamos si había significancia estadística; sí, y con un valor p ≈ 0,000000000000001066818316115281, ¡yo diría que tenemos significancia!
Si existe una correlación verdaderamente espuria, es posible que queramos
considere si la correlación equivale a causalidad, eso
es decir, ¿un cambio en la temperatura astronómica causa
¿Las acciones de Apple fluctuarán? empleamos más
Pruebas estadísticas para probar o rechazar la hipótesis.
que una variable causa la otra variable.
Existen numerosas herramientas estadísticas que prueban la causalidad. Herramientas como Análisis de Variables Instrumentales (IV), Análisis de Datos de Panel, Modelado de Ecuaciones Estructurales (SEM), Modelos de Autoregresión Vectorial, Análisis de Cointegración y Causalidad de Granger. El análisis IV considera variables omitidas en el análisis de regresión; Panel Data estudia modelos de efectos fijos y efectos aleatorios; SEM analiza relaciones estructurales; Vector Autoregression considera interacciones dinámicas de series de tiempo multivariadas; y el análisis de cointegración determina si las variables se mueven juntas en una tendencia estocástica. Queríamos una herramienta que pudiera distinguir con precisión entre causalidad genuina y asociación coincidente. Para lograrlo, nuestra elección fue la Causalidad de Granger.
Causalidad de Granger
Una prueba de Granger comprueba si los valores pasados pueden predecir los futuros. En nuestro caso, probamos si las altas temperaturas diarias en la ciudad de Nueva York podrían predecir los valores futuros de los precios de las acciones de Apple.
Ho: Las altas temperaturas diarias en la ciudad de Nueva York no causan, Granger, la fluctuación del precio de las acciones de Apple.
Para realizar la prueba, analizamos 100 retrasos para ver si había un valor p destacado. Encontramos valores de p cercanos a 1,0, lo que sugirió que no podíamos rechazar la hipótesis nula y concluimos que no había evidencia de una relación causal entre las variables de interés.
La causalidad de Granger demostró el valor p.
insignificante al rechazar la nulidad
hipótesis. Pero, ¿es eso suficiente?
Validemos nuestro análisis.
Para ayudar a mitigar el riesgo de malinterpretar la falsedad como efectos causales genuinos, realizar un análisis de correlación cruzada junto con una prueba de causalidad de Granger confirmará su hallazgo. Usando este enfoque, si existe una correlación espuria, observaremos significancia en la correlación cruzada en algunos rezagos sin una dirección causal consistente o sin que esté presente la causalidad de Granger.
Análisis de correlación cruzada
Este método se logra mediante los siguientes pasos:
- Examinar patrones temporales de correlaciones entre variables;
- •Si la variable A Granger causa la variable B, se producirá una correlación cruzada significativa entre la variable A y la variable B en rezagos positivos;
- Los picos significativos en la correlación cruzada en rezagos específicos infieren el retraso entre los cambios en la variable causal.
Interpretación:
Los valores del ccf y del rezago muestran significancia en la correlación positiva en ciertos rezagos. Esto confirma que existe una correlación espuria. Sin embargo, al igual que la causalidad de Granger, el análisis de correlación cruzada no puede respaldar la afirmación de que existe causalidad en la relación entre las dos variables.
- Las correlaciones espurias son una forma de p-hacking. La correlación no implica causa.
- Incluso con tácticas de datos “malas”, las pruebas estadísticas eliminarán la falta de significancia. Si bien había pruebas estadísticas de falsedad en las variables, las pruebas de causalidad no podían respaldar la afirmación de que existía causalidad en la relación de las variables.
- Un estudio no puede basarse únicamente en la premisa de que las variables que muestran linealidad pueden correlacionarse para mostrar causalidad. En cambio, se deben considerar otros factores que contribuyen a cada variable.
- Una prueba no estadística de si las altas temperaturas diarias en la ciudad de Nueva York hacen que las acciones de Apple fluctúen puede ser simplemente considerar: si tuviera un certificado de acciones de Apple y lo colocara en el congelador, ¿el valor del certificado se vería afectado por la ¿frío? De manera similar, si colocara el certificado afuera en un día soleado y caluroso, ¿el sol afectaría el valor del certificado?
Las correlaciones espurias no son causalidad.
El P-hacking puede afectar su credibilidad como
científico de datos. Sea el adulto en la habitación y
negarse a participar en malas estadísticas.
Este estudio retrató un análisis que involucraba estadísticas “malas”. Demostró cómo un científico de datos puede obtener, extraer y manipular datos de tal manera que muestren una correlación estadística. Al final, las pruebas estadísticas resistieron el desafío y demostraron que correlación no es igual a causalidad.
La realización de una correlación espuria plantea cuestiones éticas sobre el uso de estadísticas para derivar la causalidad en dos variables no relacionadas. Es un ejemplo de p-hacking, que explota las estadísticas para lograr el resultado deseado. Este estudio se realizó como investigación académica para mostrar lo absurdo del mal uso de las estadísticas.
Otra área de consideración ética es la práctica del web scraping. Muchos propietarios de sitios web advierten contra la extracción de datos de sus sitios para utilizarlos de forma nefasta o no deseada por ellos. Por esta razón, sitios como Yahoo Finance permiten descargar datos bursátiles en archivos csv. Esto también es válido para la mayoría de los sitios meteorológicos donde puede solicitar conjuntos de datos de tiempo de lecturas de temperatura. Nuevamente, este estudio es para investigación académica y para demostrar la capacidad de extraer datos de una manera no convencional.
Cuando te enfrentes a un jefe o cliente que te obligue a hacer p-hack y ofrecer algo así como una correlación espuria como prueba de causalidad, explícale las implicaciones de su petición y rechaza respetuosamente el proyecto. Cualquiera que sea su decisión, tendrá un impacto duradero en su credibilidad como científico de datos.
El Dr. Banks es director ejecutivo de Yo-Meta, fabricante de la tecnología patentada Spice Chip que proporciona análisis de Big Data para diversas industrias. El Sr. Boothroyd III es un analista militar retirado. Ambos son veteranos que han servido honorablemente en el ejército de los Estados Unidos y ambos disfrutan discutiendo correlaciones espurias. Son cohortes del programa MADS de la Escuela de Información de la Universidad de Michigan… ¡Go Blue!