De Pearson coeficiente de correlación, Definición, Propiedades matemáticas, Interpretación, Inferencia, Correlación de Pearson y análisis de regresión por mínimos cuadrados, Sensibilidad a la distribución de los datos, Cálculo de la correlación ponderada, Extracción de correlación, Correlación Reflective, Correlación Scaled

En las estadísticas, el momento-producto de Pearson coeficiente de correlación es una medida de la correlación lineal entre dos variables X e Y, dando un valor entre 1 y -1 incluido. Es ampliamente utilizado en las ciencias como una medida de la fuerza de la dependencia lineal entre dos variables. Fue desarrollado por Karl Pearson de una idea relacionada introducido por Francis Galton en 1880.

Definición

Coeficiente de correlación de Pearson entre dos variables se define como la covarianza de las dos variables, dividido por el producto de sus desviaciones estándar. La forma de la definición implica un "momento de producto", es decir, la media del producto de las variables aleatorias ajustados a la media, por lo que el modificador de producto-momento en el nombre.

Para una población

Coeficiente de correlación de Pearson cuando se aplica a una población que comúnmente se representa con la letra griega? y puede ser denominado como el coeficiente de correlación población o el coeficiente de correlación de Pearson población. La fórmula para? es la siguiente:

Para una muestra

Coeficiente de correlación de Pearson cuando se aplica a una muestra es comúnmente representado por la letra r y puede ser referido como el coeficiente de correlación de la muestra o la muestra coeficiente de correlación de Pearson. Podemos obtener una fórmula para r sustituyendo las estimaciones de las varianzas y covarianzas basado en una muestra en la fórmula anterior. Esa fórmula de r es:

Una expresión equivalente da el coeficiente de correlación como la media de los productos de las puntuaciones estándar. Basado en una muestra de datos apareados, la muestra coeficiente de correlación de Pearson es

donde

son el resultado oficial, media muestral y la desviación estándar de la muestra, respectivamente.

Propiedades matemáticas

El valor absoluto de la muestra y la población coeficientes de correlación de Pearson son menos que o igual a 1 - Correlaciones igual a 1 o -1 corresponden a puntos de datos situada exactamente en una línea, o a una distribución bivariante soportados por completo en una línea. El coeficiente de correlación de Pearson es simétrica: corr = corr.

Una propiedad matemática clave del coeficiente de correlación de Pearson es que es invariante para separar los cambios en ubicación y la escala en las dos variables. Es decir, es posible transformar a X a bx y transformar Y para C dY, donde a, b, c, y d son constantes, sin cambiar el coeficiente de correlación. Tenga en cuenta que las transformaciones lineales más generales hacen cambiar la correlación: ver una sección posterior de una aplicación de este.

La correlación de Pearson puede expresarse en términos de los momentos no centradas. Dado que X = E, SX2 = E = E - E2 y así mismo para Y, y desde

la correlación también puede ser escrito como

Fórmulas alternativas para la muestra el coeficiente de correlación de Pearson también están disponibles:

La segunda fórmula anterior necesita ser corregido para una muestra:

La fórmula anterior sugiere un algoritmo conveniente de un solo paso para el cálculo de las correlaciones de la muestra, pero, dependiendo de los números implicados, a veces puede ser numéricamente inestable.

Interpretación

Los rangos de los coeficientes de correlación de -1 a 1 - Un valor de 1 implica que una ecuación lineal describe la relación entre X e Y, perfectamente, con todos los puntos de datos se extiende sobre una línea para la que Y aumenta a medida que aumenta X. Un valor de -1 implica que todos los puntos de datos se encuentran en una línea para la que Y disminuye a medida que aumenta X. Un valor de 0 implica que no existe una correlación lineal entre las variables.

Más en general, tenga en cuenta que es positivo si y sólo si Xi e Yi se encuentran en el mismo lado de sus respectivos medios. Por lo tanto el coeficiente de correlación es positivo si Xi e Yi tienden a ser al mismo tiempo mayor que, o al mismo tiempo menos de, sus respectivos medios. El coeficiente de correlación es negativo si Xi e Yi tienden a estar en lados opuestos de sus respectivos medios.

Interpretación geométrica

Para los datos no centradas, el coeficiente de correlación corresponde con el coseno del ángulo entre los dos posibles líneas de regresión y = GX y GY = x.

Para los datos centrados, el coeficiente de correlación también se puede ver como el coseno del ángulo entre los dos vectores de muestras extraídas de las dos variables aleatorias.

Tanto los coeficientes de correlación no centradas y centrado se pueden determinar para un conjunto de datos. A modo de ejemplo, supongamos que cinco países se encuentran para tener productos nacionales brutos de 1, 2, 3, 5 y 8 mil millones de dólares, respectivamente. Supongamos que estas mismas cinco países se encuentra que tienen 11%, 12%, 13%, 15%, 18% y la pobreza. Entonces Sean X e Y pueden pedir vectores de 5 elementos que contienen los datos anteriores: x = y =.

Por el procedimiento habitual para encontrar el ángulo entre los dos vectores, el coeficiente de correlación uncentered es:

Tenga en cuenta que los datos anteriores fueron elegidos deliberadamente para ser perfectamente correlacionados: y = 0,10 0,01 x. Por tanto, el coeficiente de correlación de Pearson debe ser exactamente una. Centrar los datos de rendimiento de x = y =, de la que

como se esperaba.

Interpretación del tamaño de una correlación

Varios autores han ofrecido directrices para la interpretación de un coeficiente de correlación. Sin embargo, todos estos criterios son de alguna manera arbitraria y no deben observarse estrictamente demasiado. La interpretación de un coeficiente de correlación depende del contexto y los propósitos. Una correlación de 0.8 puede ser muy baja si se está verificando una ley física utilizando instrumentos de alta calidad, sino que puede ser considerado como muy alto en las ciencias sociales, donde puede haber una mayor contribución de los factores de complicación.

Pearsons distancia

Una métrica de distancia para dos variables X e Y conocida como la distancia de Pearson se puede definir a partir de su coeficiente de correlación como

Teniendo en cuenta que el coeficiente de correlación de Pearson entre cae, la distancia de Pearson se encuentra en.

Inferencia

Inferencia estadística basada en el coeficiente de correlación de Pearson menudo se centra en uno de los siguientes dos objetivos:

  • Uno de los objetivos es poner a prueba la hipótesis nula de que el coeficiente de correlación es verdad? es igual a 0, basado en el valor de la muestra el coeficiente de correlación r.
  • El otro objetivo es construir un intervalo de confianza alrededor de r que tiene una determinada probabilidad de que contiene?.

Se discuten métodos para lograr uno o ambos de estos objetivos a continuación.

Utilice una prueba de permutación

Pruebas de permutación proporcionan un enfoque directo a la realización de pruebas de hipótesis y construir intervalos de confianza. Una permutación de prueba para el coeficiente de correlación de Pearson incluye los siguientes dos pasos:

  • Utilizando los datos apareados originales, redefinir al azar los pares para crear un nuevo conjunto de datos, donde el i 'son una permutación del conjunto {1, ..., n}. La permutación i 'se selecciona al azar, con probabilidades iguales colocadas en todo n! permutaciones posibles. Esto es equivalente a dibujar el i "al azar" sin sustitución "del conjunto {1, ..., n}. Un enfoque muy relacionado e igualmente justificada es llamar por separado la iy la i '"con la sustitución" de {1, ..., n};
  • Construir un coeficiente de correlación r partir de los datos aleatorios.
  • Para realizar la prueba de permutación, repita los pasos y un gran número de veces. El valor de p para la prueba de permutación es la proporción de los valores de r generados en el paso que son más grandes que el coeficiente de correlación de Pearson que se calcula a partir de los datos originales. Aquí "grande" puede significar o bien que el valor es mayor en magnitud, o mayor en valor con signo, dependiendo de si se desea una prueba de dos lados o de un solo lado.

    Utilice un arranque

    El arranque se puede utilizar para construir intervalos de confianza para el coeficiente de correlación de Pearson. En la rutina de carga "no paramétrico", n pares se vuelven a muestrear "con el reemplazo" del conjunto observado de n pares, y el coeficiente de correlación r se calcula sobre la base de los datos resampled. Este proceso se repite un gran número de veces, y la distribución empírica de los valores de r resampled se utilizan para aproximar la distribución de muestreo de la estadística. Un intervalo de confianza del 95% para el? puede ser definido como el intervalo que va desde el 2,5 º para el percentil 97,5 de los valores de r resampled.

    Test con la distribución t de Student

    Para los pares de una distribución normal bivariada no correlacionado, la distribución muestral del coeficiente de correlación de Pearson de la siguiente distribución t de Student con grados de libertad n - 2 - En concreto, si las variables subyacentes tienen una distribución normal bivariada, la variable

    tiene una t de Student de distribución en el caso nulo. Esto también es de aproximadamente incluso si los valores observados son no-normal, tamaño de las muestras proporcionadas no son muy pequeñas. Para determinar los valores críticos para r también es necesaria la inversa de esta transformación:

    Alternativamente, grandes enfoques ejemplo se pueden utilizar.

    Los primeros trabajos sobre la distribución del coeficiente de correlación de la muestra se llevó a cabo por RA Fisher y AK Gayen. Otro artículo temprana proporciona gráficos y tablas para los valores generales de?, Para los pequeños tamaños de muestra, y se analizan los enfoques computacionales.

    Utilice la distribución exacta

    Para los datos que sigue una distribución normal bivariada, la función exacta de densidad para la correlación de la muestra de una normal bivariada es

    donde es la función gamma, es la función hipergeométrica de Gauss. En el caso especial en que, la densidad se puede escribir como:

    donde es la función beta, que es una forma de escribir la densidad de la distribución t de Student, como antes.

    Tenga en cuenta que, por lo tanto, r es un estimador sesgado. Un aproximadamente estimador insesgado se puede obtener mediante la resolución de la ecuación para. Sin embargo, la solución,, es subóptima. Un estimador insesgado aproximadamente, con mínima varianza para grandes valores de n, con un sesgo de orden, se puede obtener mediante la maximización, es decir.

    Utilice la transformación Fisher

    En la práctica, los intervalos de confianza y pruebas de hipótesis en relación con? por lo general se llevan a cabo utilizando la transformación de Fisher:

    Si F es la transformación de Fisher de r, y n es el tamaño de la muestra, entonces F sigue aproximadamente una distribución normal con

     y el error estándar

    Así, un z-score es

    bajo la hipótesis nula de que, dada la suposición de que los pares de muestras son independientes e idénticamente distribuidos y siguen una distribución normal bivariada. Así, un valor p aproximado puede obtenerse a partir de una tabla de probabilidad normal. Por ejemplo, si z = 2,2, y se observa un valor de p de dos caras se desea contrastar la hipótesis nula de que el valor de p es 2F = 0.028, donde F es la función de distribución acumulada normal estándar.

    ¿Para obtener un intervalo de confianza para, primero calculamos un intervalo de confianza para F:

     La transformación Fisher inversa resucitar a los intervalos de la escala de correlación.

     Por ejemplo, supongamos que observamos r = 0,3 con un tamaño de muestra de n = 50, y queremos obtener un intervalo de confianza del 95% para?. El valor convertido es arctanh = 0.30952, por lo que el intervalo de confianza en la escala transformada es 0.30952 1.96/v47 o. Conversión de nuevo a los rendimientos de escala de correlación.

    Correlación de Pearson y análisis de regresión por mínimos cuadrados

    El cuadrado del coeficiente de correlación de la muestra, típicamente denota r2 y llama el coeficiente de determinación, estima la fracción de la varianza en Y que se explica por X en una regresión lineal simple. Como punto de partida, la variación total en el Yi alrededor de su valor medio se puede descomponer de la siguiente manera

    donde se encuentran los valores ajustados del análisis de regresión. Esto puede ser reorganizado para dar

    Los dos sumandos anteriores son la fracción de la varianza en Y que se explica por X y que es explicada por X.

    A continuación, se aplica una característica de los modelos de regresión por mínimos cuadrados, que la covarianza muestral entre y es igual a cero. Por lo tanto, el coeficiente de correlación muestral entre los valores de respuesta observados y equipada en la regresión se puede escribir

    Así

    es la proporción de la varianza de Y explicada por una función lineal de X.

    Sensibilidad a la distribución de los datos

    Existencia

    El coeficiente de correlación de Pearson población se define en términos de momentos, y por lo tanto existe para cualquier distribución de probabilidad bivariada para los que se define la covarianza de la población y las varianzas de las poblaciones marginales están definidos y son no-cero. Algunas distribuciones de probabilidad, como la distribución de Cauchy tienen varianza definida y por lo tanto? no se define si X o Y sigue como una distribución. En algunas aplicaciones prácticas, tales como las que implican los datos que se sospecha que siguen una distribución de cola pesada, esta es una consideración importante. Sin embargo, la existencia del coeficiente de correlación no es por lo general una preocupación, por ejemplo, si el rango de la distribución está limitada,? siempre se define.

    Propiedades en muestras grandes

    En el caso de la distribución normal bivariada el coeficiente de correlación de Pearson población caracteriza la distribución conjunta, siempre y cuando los medios marginales y varianzas son conocidos. Para la mayoría de las otras distribuciones bivariadas esto no es cierto. Sin embargo, el coeficiente de correlación es altamente informativo sobre el grado de dependencia lineal entre dos cantidades aleatorias independientemente de si su distribución conjunta es normal. El coeficiente de correlación de la muestra es la estimación de máxima probabilidad de que el coeficiente de correlación para la población normal de los datos bivariados, y es asintóticamente insesgado y eficiente, lo que significa más o menos que es imposible para la construcción de una estimación más precisa que el coeficiente de correlación de la muestra si los datos son normales y el tamaño de la muestra es moderada o grande. Para las poblaciones no normales, el coeficiente de correlación de la muestra permanece aproximadamente imparcial, pero puede no ser eficiente. El coeficiente de correlación de la muestra es un estimador consistente del coeficiente de correlación población, siempre y cuando el medio de muestra, varianzas y covarianzas son consistentes.

    Robustez

    Al igual que muchas de las estadísticas de uso común, la estadística muestra r no es sólida, por lo que su valor puede ser engañoso si los valores atípicos están presentes. En concreto, el PMCC es ni distributivos robustos, resistentes ni atípico. La inspección de la dispersión entre X e Y normalmente revelan una situación en la que la falta de robustez puede ser un problema, y en tales casos, puede ser aconsejable utilizar una medida robusta de asociación. Tenga en cuenta sin embargo, que mientras que la mayoría de los estimadores robustos de asociación medida dependencia estadística de alguna manera, por lo general no son interpretables en la misma escala que el coeficiente de correlación de Pearson.

    La inferencia estadística para el coeficiente de correlación de Pearson es sensible a la distribución de los datos. Pruebas exactas, y las pruebas asintóticas basado en la transformación de Fisher se pueden aplicar si los datos son una distribución aproximadamente normal, pero puede ser engañosa lo contrario. En algunas situaciones, el arranque se puede aplicar para construir intervalos de confianza y pruebas de permutación se puede aplicar para llevar a cabo las pruebas de hipótesis. Estos métodos no paramétricos pueden dar resultados más significativos en algunas situaciones donde la normalidad bivariada no disponga. Sin embargo, las versiones estándar de estos enfoques se basan en la intercambiabilidad de los datos, lo que significa que no hay orden o agrupación de los pares de datos que se analiza que podrían afectar al comportamiento de la estimación de la correlación.

    Un análisis estratificado es una manera de acomodar ya sea una falta de normalidad bivariada, o para aislar la correlación resultante de un factor mientras que el control para la otra. Si W representa pertenencia al clúster o otro factor que es deseable para el control, se puede estratificar a los datos basados en el valor de W, a continuación, calcular un coeficiente de correlación dentro de cada estrato. Las estimaciones de nivel de estrato a continuación, se pueden combinar para calcular la correlación general mientras que el control de W.

    Cálculo de la correlación ponderada

    Supongamos que las observaciones que se han correlacionado diferentes grados de importancia que se pueden expresar con un vector w peso. Para calcular la correlación entre los vectores x e y con el vector de pesos w,

    • Media ponderada:
    • Covarianza ponderada
    • Correlación ponderada

    Extracción de correlación

    Siempre es posible eliminar la correlación entre variables aleatorias con una transformación lineal, incluso si la relación entre las variables es no lineal. Una presentación de este resultado para las distribuciones de población viene dada por Cox y Hinkley.

    Un resultado correspondiente existe para las correlaciones de la muestra, en el que la correlación de la muestra se reduce a cero. Supongamos que un vector de n variables aleatorias se muestrea m veces. Sea X una matriz en la que es la variable j de la muestra i. Dejar ser una matriz de m por m cuadrado con cada elemento 1 - Entonces D es los datos transformados por lo que cada variable aleatoria tiene media cero, y T es los datos transformados para todas las variables tienen correlación media cero cero y con todas las demás variables - la covarianza de la muestra matriz de T será la matriz de identidad. Esta tiene que ser dividido además por la desviación estándar para obtener varianza unidad. Serán correlacionados Las variables transformadas, a pesar de que no pueden ser independientes.

    donde un exponente de -1/2 representa la raíz cuadrada de la matriz inversa de una matriz. La matriz de covarianza de T será la matriz de identidad. Si una nueva muestra de datos x es un vector fila de n elementos, a continuación, la misma transformación se puede aplicar a x para obtener la transformada vectores d y t:

    Esta descorrelación se relaciona con análisis de componentes principales para datos multivariantes.

    Correlación Reflective

    La correlación reflectante es una variante de correlación de Pearson en el que los datos no están centradas en torno a sus valores medios. La correlación es reflectante población

    La correlación reflectante es simétrica, pero no es invariante bajo traducción:

    La muestra refleja la correlación es

    La versión ponderada de la muestra correlación es reflectante

    Correlación Scaled

    Correlación escalado es una variante de correlación de Pearson en el que el rango de los datos está restringida intencionadamente y de una manera controlada para revelar las correlaciones entre los componentes rápido en serie de tiempo. Correlación escalado se define como la correlación promedio entre los segmentos cortos de datos.

    Dejar ser el número de segmentos que pueden caber en la longitud total de la señal para una escala dada:

    La correlación escala a través de las señales enteras se calcula entonces como

    donde es el coeficiente de Pearson de correlación de segmento.

    Al elegir el parámetro, el rango de valores se reduce y las correlaciones en larga escala de tiempo se filtra, sólo las correlaciones de las escalas de tiempo cortas siendo revelados. Por lo tanto, las contribuciones de los componentes lentos se eliminan y las de los componentes rápido se retienen.