Kendall tau coeficiente de correlación de rangos, Definición, Prueba de hipótesis, Contabilización de las relaciones, Las pruebas de significación, Algoritmos



En las estadísticas, el coeficiente de correlación de rangos de Kendall, comúnmente conocida como coeficiente tau de Kendall, es una estadística que se usa para medir la asociación entre dos cantidades medidas. Una prueba de tau es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente de tau.

En concreto, se trata de una medida de correlación de rangos, es decir, la similitud de los ordenamientos de los datos cuando clasificados en orden de cada una de las cantidades. Lleva el nombre de Maurice Kendall, quien la desarrolló en 1938, cuando Gustav Fechner había propuesto una medida similar en el contexto de la serie de tiempo en 1897.

Definición

Vamos,,, ser un conjunto de observaciones de las variables aleatorias conjunta X e Y respectivamente, de tal manera que todos los valores de y son únicos. Cualquier par de observaciones y se dice que son concordantes si las filas de ambos elementos están de acuerdo: es decir, si ambos xi> xj y yi> yj o si ambos xi xj y yi yj. Si xi = xj o yi = yj, la pareja no es ni concordantes ni discordante.

El coeficiente de Kendall t se define como:

Propiedades

El denominador es el número total de combinaciones par, por lo que el coeficiente debe estar en el rango de -1 = t = 1.

  • Si el acuerdo entre las dos clasificaciones es perfecto el coeficiente tiene el valor 1.
  • Si el desacuerdo entre las dos clasificaciones es perfecto el coeficiente tiene un valor -1.
  • Si X e Y son independientes, entonces esperaríamos que el coeficiente sea aproximadamente cero.

Prueba de hipótesis

El coeficiente de rango de Kendall se utiliza a menudo como una prueba estadística de una prueba de hipótesis estadística para establecer si dos variables pueden considerarse como dependiente estadísticamente. Esta prueba es no paramétrico, ya que no se basa en ninguna hipótesis sobre la distribución de X o Y o la distribución de.

Bajo la hipótesis nula de independencia de X e Y, la distribución de muestreo de t tiene un valor esperado de cero. La distribución precisa no puede ser caracterizada en términos de distribuciones comunes, pero se puede calcular exactamente para muestras pequeñas; para muestras más grandes, es común el uso de una aproximación a la distribución normal, con media cero y varianza

.

Contabilización de las relaciones

Se dice que un par {,} para atarse si xi = xj = yj o yi, un par atado es ni concordantes ni discordante. Cuando surgen los pares atado en los datos, el coeficiente puede ser modificado de varias maneras para mantenerlo en el rango:

Tau-un

El Tau-una estadística pone a prueba la fuerza de la asociación de las tabulaciones cruzadas. Ambas variables tienen que ser ordinal. Tau-una voluntad de no hacer ningún ajuste para los lazos.

Tau-b

La estadística Tau-b, a diferencia de Tau-a, hace los ajustes para los lazos. Los valores de Tau-b gama de -1 a . Un valor de cero indica la ausencia de asociación.

El Tau-b coeficiente de Kendall se define como:

donde

Tau-c

Tau-c se diferencia de Tau-b como en ser más apropiado para mesas rectangulares que para las mesas cuadradas.

Las pruebas de significación

Cuando dos cantidades son estadísticamente independientes, la distribución de la no es fácilmente caracterizable en términos de distribuciones conocidas. Sin embargo, para la siguiente estadística,, se distribuye aproximadamente como una normal estándar cuando las variables son estadísticamente independientes:

Por lo tanto, para probar si dos variables son estadísticamente dependientes, uno computa, y encuentra la probabilidad acumulada de una distribución normal estándar a. Para una prueba de 2 colas, multiplique ese número por dos para obtener el valor de p. Si el valor p es inferior a un determinado nivel de significación, se rechaza la hipótesis nula de que las cantidades son estadísticamente independientes.

Numerosos ajustes deben añadirse a la contabilización de los lazos. La siguiente estadística,, tiene la misma distribución que la distribución, y es de nuevo aproximadamente igual a una distribución normal estándar cuando las cantidades son estadísticamente independientes:

donde

Algoritmos

El cálculo directo del numerador, implica dos iteraciones anidadas, como se caracteriza por el siguiente pseudo-código:

 numer: = 0 para i: = 2 .. N hacer para j: = 1 .. hacer numer: = numer sgn * sgn regreso numer

Aunque rápida de poner en práctica, en este algoritmo es la complejidad y se vuelve muy lento en grandes muestras. Un algoritmo más sofisticado construido sobre el algoritmo de ordenación de mezcla se puede utilizar para calcular el numerador en el tiempo.

Empiece por pedir los puntos de datos de clasificación de la primera cantidad, y en segundo lugar por la segunda cantidad. Con esta ordenación inicial, no se ordena, y el núcleo del algoritmo consiste en calcular el número de pasos que una clase de burbuja se necesitaría para resolver esto inicial. Una mayor Ordenar algoritmo Merge, con la complejidad, se puede aplicar para calcular el número de swaps, que se requeriría de una clase de burbuja para ordenar. A continuación, el numerador para se calcula como:

,

donde se calcula como y, pero con respecto a los lazos conjuntos en y.

Una unión de fusión Clasificar particiones los datos a ser ordenados, en dos mitades aproximadamente iguales, y, a continuación, ordena cada medio recursivo, y a continuación se funde las dos mitades ordenados en un vector completamente ordenados. El número de la clase de burbuja swaps es igual a:

donde y son las versiones ordenadas de y, y caracteriza la clase de burbuja swap-equivalente para una operación de combinación. se calcula como se muestra en el siguiente pseudo-código:

 función M i: = 1 j: = 1 nSwaps: = 0 while i <= n y j <= m hacer si R

Un efecto secundario de los pasos anteriores es que usted termina con una versión de ordenar y de una versión ordenada de. Con éstos, los factores utilizados para calcular y se obtienen fácilmente en un solo paso de tiempo lineal a través de las matrices ordenadas.

Un segundo algoritmo con complejidad temporal, sobre la base de los árboles AVL, fue ideado por David Christensen.