lunes, 16 de agosto de 2021

Correlación entre dos variables

 En el análisis de datos es muy probable que necesitemos entrar en el análisis de la relacion existente entre dos variables. Por ejemplo, nos gustaría conocer la relacion existente entre el comer un tipo de alimento y saber si es provechoso para la saludo o no.

  • También, nos podría interesar saber si asistir a una escuela X mejora las calificaciones de los estudiantes?.
  • La cantidad de alimento ingerido y el peso de las personas?.
  • La relacion entre la altura de las personas y el peso.
  • Si existe una relacion entre los niveles de criminalidad y el desempleo.

Al hacer una grafica de dispersión entre las dos variables podemos ver gráficamente el tipo de relacion. 



Por ejemplo, en el caso de la relacion entre el consumo de helado y la temperatura promedio, podríamos hablar una correlación positiva. Esto significa que cuando una variable incrementa, la otra variable también aumenta. 

Aunque también podemos tener una correlación negativa. Esto significa que cuando una variable aumenta, la otra disminuye. 

También podemos encontrar que no existe correlación alguna entre las variables. Es decir no hay correlación alguna al aumento o disminución de una, no tiene ningún efecto en la otra.

Como medir esa correlación?

La manera mas común para cuantificar es mediante el coeficiente de Pearson (R2). Y este es un numero que va entre +1 a -1.

Un valor positivo (+1), significa que la relacion es positiva y un valor negativo significa que la relacion es negativa.

Mientras mas cerca el valor a +1 o -1, nos dice que la correlación es mas fuerte. Y un valor cercado a CERO significa que no existe o es muy baja la relacion entre las variables.

Por ejemplo, un resultado del coeficiente de Pearson igual a 0.78. Este resultado nos dice que existe una fuerte relacion lineal y positiva entre el consumo de helado y la temperatura media. 

Eso podría llevarnos a concluir que un clima caluroso podría causar un mayor consumo de helado en ese día. Pero es aquí donde debemos tener cuidado, porque aunque tenemos una alta correlación, no significa que exista una fuerte causalidad entre la temperatura y el consumo de helado.

Así que solo podemos concluir que existe una correlación fuerte y positiva entre las dos variables.


Tipos de correlación

Tenemos primero donde no existe correlación alguna. Por ejemplo, la relacion entre la edad de las personas y el tener mascota. El grafico muestra que estas dos variables no tienen ningún tipo de relacion entre si.




Si existiere relacion entre dos variables, esta relacion puede ser lineal o no lineal. Una relacion lineal sucede cuando una variable incrementa o decrece a medida que una variable aumenta o disminuye. 

Un ejemplo de una relacion lineal podría ser entre el consumo de chocolate con el aumento del peso corporal. Cuando vemos el grafico de dispersión, la relacion lineal se la observa por la formación de los puntos y estos siguen una forma de linea recta.

Los dos gráficos de dispersión muestran las opciones de relacion lineal positiva y negativa.



Tambien puede existir relaciones NO lineales. Naturalmente, las relaciones no lineales pueden tener diferentes patrones o formas. 

Un ejemplo puede ser la relacion entre la distancia recorrida de una bola y el tiempo de que fue lanzada. La distancia incrementara mas rapidamente al inicio, pero despues disminuira su recorrida y se detendra.

Las dos graficas de dispersion muestran dos tipos de relaciones no lineales. 





Fuerza de la correlación

Correlacion va mucho mas es decir si hay relacion entre dos variables. Ademas, es una medicion que nos dice que tan fuerte is esa relacion.

Cuando la correlacion es fuerte entre dos variables, los puntos en el grafico de dispersion estan muy cercanos y formando una linea recta muy acentuada. 

Mientras que la relacion es debil, los puntos en el grafico de dispersion estan alejados de linea recta. 

Los graficos a continuacion muestran:

Izq: fuerte correlacion positiva.  Centro: fuerte correlacion negativa.  Derecha: no hay correlacion






No hay comentarios:

Publicar un comentario