Correlación y la dependencia, Coeficiente producto-momento de Pearson, Coeficientes de correlación de rangos, Otras medidas de la dependencia entre las variables aleatorias, Sensibilidad a la distribución de los datos, Matrices de correlación, Errores comunes, La vida en tiempo de correlación, Distribución normal bivariante, Correlación parcial


En las estadísticas, la dependencia se refiere a cualquier relación estadística entre dos variables aleatorias o dos conjuntos de datos. Correlación refiere a cualquiera de una amplia clase de relaciones estadísticas que implican la dependencia.

Ejemplos conocidos de los fenómenos dependientes incluyen la correlación entre las estaturas físicas de los padres y sus hijos, y la correlación entre la demanda de un producto y su precio. Las correlaciones son útiles, ya que pueden indicar una relación predictiva que puede ser explotado en la práctica. Por ejemplo, una utilidad eléctrica puede producir menos energía en un día leve sobre la base de la correlación entre la demanda de electricidad y el tiempo. En este ejemplo hay una relación causal, ya que el clima extremo hace que la gente a usar más electricidad para la calefacción o la refrigeración, sin embargo, la dependencia estadística no es suficiente para demostrar la presencia de una relación causal.

Formalmente, la dependencia se refiere a cualquier situación en la que las variables aleatorias no satisfacen una condición matemática de la independencia probabilística. En el uso floja, la correlación puede referirse a cualquier salida de dos o más variables aleatorias de la independencia, pero técnicamente se refiere a cualquiera de varios tipos más especializados de la relación entre los valores medios. Hay varios coeficientes de correlación, a menudo denotado? o r, midiendo el grado de correlación. El más común de ellos es el coeficiente de correlación de Pearson, que es sensible sólo a una relación lineal entre dos variables. Otros coeficientes de correlación se han desarrollado para ser más robusto que el de correlación de Pearson - es decir, más sensibles a relaciones no lineales.

Coeficiente producto-momento de Pearson

La medida más conocida de dependencia entre dos cantidades es el producto-momento de Pearson coeficiente de correlación, o "correlación de Pearson." Se obtiene dividiendo la covarianza de las dos variables por el producto de sus desviaciones estándar. Karl Pearson desarrolló el coeficiente de una idea similar pero ligeramente diferente por Francis Galton.

? El coeficiente de correlación de la población X, Y entre dos variables aleatorias X e Y con los valores esperados X e Y y las desviaciones estándar de sX y Sy se define como:

donde E es el operador de valor esperado, Cov significa covarianza, y, corr una notación alternativa ampliamente utilizado para la correlación de Pearson.

La correlación de Pearson se define sólo si tanto de las desviaciones estándar son finitos y ambos son cero. Es un corolario de la desigualdad de Cauchy-Schwarz que la correlación no puede ser superior a 1, en valor absoluto. El coeficiente de correlación es simétrica: corr = corr.

La correlación de Pearson es 1 en el caso de una relación lineal positiva perfecta, -1 en el caso de una perfecta relación lineal decreciente, y algún valor entre -1 y 1 en los demás casos, lo que indica el grado de dependencia lineal entre las variables . Como se aproxima a cero, hay menos de una relación. Cuanto más cerca esté el coeficiente es o bien 1 o -1, más fuerte será la correlación entre las variables.

Si las variables son independientes, coeficiente de correlación de Pearson es 0, pero lo contrario no es cierto porque el coeficiente de correlación sólo detecta dependencias lineales entre dos variables. Por ejemplo, supongamos que la variable aleatoria X se distribuye simétricamente alrededor de cero, e Y = X2. Entonces Y está completamente determinado por X, por lo que X e Y son dependientes perfectamente, pero su correlación es cero; que no están correlacionados. Sin embargo, en el caso especial cuando X e Y son conjuntamente normal, uncorrelatedness es equivalente a la independencia.

Si tenemos una serie de n mediciones de X e Y escrito como xi y yi donde i = 1, 2, ..., n, entonces el coeficiente de correlación de la muestra puede ser utilizado para estimar la población de correlación de Pearson r entre X e Y. El coeficiente de correlación muestral se escribe

donde x e y son las medias de muestra de X e Y, y sx y sy son las desviaciones estándar de muestras de X e Y.

Esto también se puede escribir como:

Si x e y son resultados de las mediciones que contienen un error de medición, los límites realistas sobre el coeficiente de correlación no -1 a , sino un rango más pequeño son.

Para el caso de un modelo lineal con una sola variable independiente, el coeficiente de determinación es el cuadrado de r, coeficiente de momento-producto de Pearson.

Coeficientes de correlación de rangos

 Artículo principal: coeficiente de correlación de Spearman y Kendall tau coeficiente de correlación de rangos

Coeficientes de correlación de rango, tales como el coeficiente de correlación de rangos de Spearman y medida de coeficiente de correlación de rangos de Kendall la medida en que, como una variable aumenta, la otra variable tiende a aumentar, sin que se requiera que aumentan a ser representada por una relación lineal. Si, como una variable aumenta, la otra disminuye, los coeficientes de correlación de rango serán negativos. Es común a considerar estos coeficientes de correlación de rango como alternativas a coeficiente de Pearson, que se utiliza ya sea para reducir la cantidad de cálculo o para hacer que el coeficiente de menos sensibles a la falta de normalidad de las distribuciones. Sin embargo, este punto de vista tiene poca base matemática, como los coeficientes de correlación de rango miden un tipo de relación diferente a la del producto-momento de Pearson coeficiente de correlación, y se ve mejor como medidas de otro tipo de asociación, más que como medida alternativa de la correlación poblacional coeficiente.

Para ilustrar la naturaleza de la correlación de rangos, y su diferencia con la correlación lineal, tenga en cuenta los siguientes cuatro pares de números:

,,,.

A medida que avanzamos de cada par a la siguiente par x crece, y también lo hace y. Esta relación es perfecto, en el sentido de que un aumento de x está siempre acompañado por un aumento en y. Esto significa que tenemos un rango de correlación perfecta, y tanto de Spearman y el coeficiente de correlación de Kendall son 1, mientras que en este ejemplo de Pearson coeficiente de correlación es 0,7544, lo que indica que los puntos están lejos de ser tirado en una línea recta. De la misma manera, si y siempre disminuye cuando x aumenta, los coeficientes de correlación de rango serán -1, mientras que el producto-momento de coeficiente de correlación de Pearson puede o no puede estar cerca de -1, en función de lo cerca que los puntos son a una línea recta . Aunque en los casos extremos de rango de correlación perfecta de los dos coeficientes son ambos iguales esto no es, en general, es así, y los valores de los dos coeficientes no significativa puede ser comparado. Por ejemplo, para los tres pares de coeficiente de Spearman es 1/2, mientras que el coeficiente de Kendall es 1/3.

Otras medidas de la dependencia entre las variables aleatorias

La información dada por un coeficiente de correlación no es suficiente para definir la estructura de dependencia entre variables aleatorias. El coeficiente de correlación define completamente la estructura de dependencia sólo en casos muy particulares, por ejemplo cuando la distribución es una distribución normal multivariante. En el caso de distribuciones elípticas que caracteriza a las elipses de igual densidad, sin embargo, no caracteriza completamente la estructura de dependencia.

Distancia correlación y covarianza/correlación browniano browniano se introdujeron para hacer frente a la deficiencia de correlación de Pearson que puede ser cero para las variables aleatorias dependientes; correlación cero distancia y browniano correlación cero implican independencia.

La relación de correlación es capaz de detectar casi cualquier tipo de dependencia funcional y la información mutua basada en la entropía, la correlación total y doble correlación totales son capaces de detectar las dependencias más generales. Estos se refieren a veces como multi-momento medidas de correlación, en comparación con aquellos que consideran sólo segundo dependencia momento.

La correlación policórica es otra correlación aplicado a los datos ordinales que tiene como objetivo estimar la correlación entre las variables latentes teorizado.

Una forma de captar una visión más completa de la estructura de la dependencia es considerar una cópula entre ellos.

El coeficiente de determinación generaliza el coeficiente de correlación para las relaciones más allá de regresión lineal simple.

Sensibilidad a la distribución de los datos

El grado de dependencia entre las variables X e Y no depende de la escala en la que se expresan las variables. Es decir, si estamos analizando la relación entre X e Y, la mayoría de las medidas de correlación no se ven afectados por la transformación de X a a bx e Y a c dY, donde a, b, c, y d son constantes. Este es el caso de algunas estadísticas de correlación, así como sus análogos de población. Algunas estadísticas de correlación, tales como el coeficiente de correlación de rangos, son también invariante a transformaciones monótonas de las distribuciones marginales de X y/o Y.

La mayoría de las medidas de correlación son sensibles a la manera en la que X e Y son muestreadas. Dependencias tienden a ser más fuerte si visualizarse en un rango más amplio de valores. Por lo tanto, si tenemos en cuenta el coeficiente de correlación entre las alturas de los padres y sus hijos a través de todos los hombres adultos, y lo comparamos con el mismo coeficiente de correlación calculado cuando los padres son seleccionados para ser de entre 165 cm y 170 cm de altura, la correlación será más débil en el último caso. Varias técnicas han sido desarrolladas que intento de corregir para la restricción de la gama en una o ambas variables, y se utilizan comúnmente en el meta-análisis; los más comunes son el caso de Thorndike ecuaciones II y III de casos.

Varias medidas de correlación en uso puede ser definido para ciertas distribuciones de conjuntos de X e Y. Por ejemplo, el coeficiente de correlación de Pearson se define en términos de momentos, y por lo tanto será indefinido si los momentos no están definidos. Las medidas de la dependencia sobre la base de cuantiles siempre se definen. Estadísticas basadas ejemplo para estimar la población medidas de la dependencia pueden o no pueden tener propiedades estadísticas deseables, tales como ser imparcial, o asintóticamente consistente, sobre la base de la estructura espacial de la población de la que se tomaron muestras de los datos.

Sensibilidad a la distribución de los datos se puede utilizar para una ventaja. Por ejemplo, la correlación de escala está diseñado para utilizar la sensibilidad a la gama con el fin de seleccionar las correlaciones entre los componentes rápido de series de tiempo. Al reducir el rango de valores de una manera controlada, las correlaciones en la escala de tiempo largo se filtran y sólo las correlaciones en escalas de tiempo cortas se revelan.

Matrices de correlación

La matriz de correlaciones de n variables aleatorias X1, ..., Xn es la matriz cuyos n n i, j entrada es corr. Si las medidas de correlación, utilizados son coeficientes de momento-producto, la matriz de correlación es la misma que la matriz de covarianza de las variables aleatorias estandarizados Xi/s para i = 1, ..., n. Esto se aplica tanto a la matriz de correlaciones de población, y para la matriz de correlaciones de muestra. En consecuencia, cada uno es necesariamente una matriz positiva semidefinida.

La matriz de correlación es simétrica porque la correlación entre Xi y Xj es la misma que la correlación entre Xi y Xj.

Errores comunes

Correlación y causalidad

La máxima convencional de que la "correlación no implica causalidad" significa que la correlación no se puede utilizar para deducir una relación causal entre las variables. Esta sentencia no debe interpretarse en el sentido de que las correlaciones no pueden indicar la posible existencia de relaciones causales. Sin embargo, las causas subyacentes a la correlación, si los hay, pueden ser indirectos y desconocidos, y las altas correlaciones también solaparse con las relaciones de identidad, en donde no existe ningún proceso causal. En consecuencia, el establecimiento de una correlación entre dos variables no es una condición suficiente para establecer una relación causal. Por ejemplo, se puede observar una correlación entre un despertador sonando y el alba ordinaria, aunque no existe una relación causal directa entre estos eventos.

Una correlación entre la edad y la talla en los niños es bastante causalmente transparente, pero una correlación entre el estado de ánimo y la salud en las personas es menos. ¿El mejor plomo de humor para una mejor salud, o tiene buena salud genera una buen humor, o las dos cosas? ¿O es que algún otro factor subyacen tanto? En otras palabras, una correlación puede ser tomada como evidencia de una posible relación causal, pero no puede indicar cuál es la relación causal, en su caso, podría ser.

Correlación y linealidad

El coeficiente de correlación de Pearson indica la intensidad de una relación lineal entre dos variables, pero su valor generalmente no caracteriza completamente su relación. En particular, si la media condicional de Y dado X, denotado E, no es lineal en las direcciones X, el coeficiente de correlación será no determina totalmente la forma de E.

La imagen de la derecha muestra diagramas de dispersión del cuarteto de Anscombe, un conjunto de cuatro diferentes pares de variables creadas por Francis Anscombe. Los cuatro Ÿ variables tienen la misma media, la varianza, la correlación y la recta de regresión. Sin embargo, como puede verse en las parcelas, la distribución de las variables es muy diferente. El primero parece que se distribuye normalmente, y se corresponde con lo que cabría esperar al considerar dos variables correlacionadas y siguiendo el supuesto de normalidad. El segundo no tiene una distribución normal, mientras que una relación obvia entre las dos variables se puede observar, no es lineal. En este caso, el coeficiente de correlación de Pearson no indica que existe una relación funcional exacta: sólo la medida en que esa relación se puede aproximar por una relación lineal. En el tercer caso, la relación lineal es perfecta, a excepción de un valor atípico, que ejerce una influencia suficiente para reducir el coeficiente de correlación 1-0,816 - Por último, el cuarto ejemplo se muestra otro ejemplo, cuando un valor atípico es suficiente para producir un alto coeficiente de correlación, incluso aunque la relación entre las dos variables no es lineal.

Estos ejemplos indican que el coeficiente de correlación, como una estadística de resumen, no pueden sustituir el examen visual de los datos. Tenga en cuenta que los ejemplos se dice a veces para demostrar que la correlación de Pearson asume que los datos siguen una distribución normal, pero esto no es correcto.

La vida en tiempo de correlación

La mayoría de los análisis no tiene en cuenta la variación de coeffition correlación con el tiempo. Si se rompe estacionaria, a continuación, se necesitan algunos conceptos de la elección de intervalos de tiempo óptimos. La durabilidad de correlación del als debe ser calculado en tal caso.

Distribución normal bivariante

Si un par de variables aleatorias sigue una distribución normal bivariada, la media condicional E es una función lineal de Y, y la media condicional E es una función lineal de X. El coeficiente de correlación r entre X e Y, junto con los medios y marginales varianzas de X e Y, determina esta relación lineal:

donde E y E son los valores esperados de X e Y, respectivamente, y sx y sy son las desviaciones estándar de X e Y, respectivamente.

Correlación parcial

Si una población o conjunto de datos se caracteriza por más de dos variables, un coeficiente de correlación parcial mide la fuerza de la dependencia entre un par de variables que no se explica por la forma en que tanto el cambio en respuesta a las variaciones en un subconjunto seleccionado de las otras variables.