Variable categórica, Las variables categóricas en regresión

En estadística, una variable categórica es una variable que puede tomar uno de un número limitado, y por lo general fija, el número de valores posibles. Las variables categóricas se utilizan a menudo para representar los datos categóricos. En ciencias de la computación y algunas ramas de las matemáticas, las variables categóricas se conocen como las enumeraciones o tipos enumerados. Comúnmente, el nivel de palabra se utiliza para referirse a uno de los valores posibles de una variable categórica.

Una variable categórica que puede asumir exactamente dos valores se denomina una variable o variable ficticia binario y por lo general se considera por sí misma como un caso especial. Como resultado, las variables categóricas a menudo se supone que contienen, o al menos contener potencialmente, tres o más valores. Véase la discusión que sigue.

Ejemplos de valores que podrían ser representados en una variable categórica:

  • El tipo de sangre de una persona: A, B, AB u O.
  • El estado que un residente de los Estados Unidos vive pulg
  • El partido político que un votante en un país europeo podría votar a favor: la Democracia Cristiana, socialdemócrata, Partido Verde, etc
  • El tipo de la roca ígnea, sedimentaria o metamórfica.
  • La identidad de una palabra en particular: Una de las posibles opciones de V, para un vocabulario de tamaño de V.

Para la facilidad en el procesamiento estadístico, las variables categóricas se pueden asignar índices numéricos, por ejemplo, 1 a través de K para una variable categórica K-way. En general, sin embargo, los números son arbitrarios, y no tienen significado más allá de simplemente proporcionar una etiqueta conveniente para un valor particular. En otras palabras, existen los valores de una variable categórica en una escala nominal: que cada uno representa un concepto separado lógicamente, puede no necesariamente ser ordenado significativa y no se pueden manipular de otra manera como los números podrían ser. En cambio, las operaciones válidas son las operaciones relacionadas con set de equivalencia, set de miembro, y otros.

Como resultado de ello, la tendencia central de un conjunto de variables categóricas se da por su modo, ni la media ni la mediana se puede definir. Como un ejemplo, dado un conjunto de personas, podemos considerar el conjunto de variables categóricas correspondientes a sus apellidos. Podemos considerar las operaciones como la equivalencia, la pertenencia conjunto, contar, o encontrar el modo. Sin embargo, no podemos calcular significativa la "suma" de Smith Johnson, o preguntar si Smith es "menor que" o "mayor que" Johnson. Como resultado de ello, no podemos significativa preguntamos cuál es el "nombre de la media" o "más a segundo nombre" está en un conjunto de nombres.

Tenga en cuenta que esto ignora el concepto de orden alfabético, que es una propiedad que no es inherente a los mismos nombres, pero en la manera de construir las etiquetas. Por ejemplo, si escribimos los nombres en cirílico y consideramos el cirílico ordenamiento de cartas, podríamos obtener un resultado diferente de evaluar "Smith

Variables aleatorias categóricas se describen normalmente estadísticamente por una distribución categórica, que permite una variable categórica K-manera arbitraria al ser expresada con probabilidades separadas especificados para cada uno de los posibles resultados K. Tales-categoría múltiples variables categóricas se analizaron utilizando a menudo una distribución multinomial, que cuenta la frecuencia de cada combinación posible de los números de casos de las diferentes categorías. El análisis de regresión de los resultados categóricos se logra a través de regresión logística multinomial probit multinomial o de un tipo de modelo de elección discreta relacionada.

Las variables categóricas que tienen sólo dos resultados posibles se conocen como variables binarias. Debido a su importancia, estas variables a menudo se consideran una categoría separada, con distintos modelos de regresión de una distribución y separados. Como resultado de ello, el término "variable categórica" a menudo se reserva para los casos con 3 o más resultados, a veces denominado una variable de múltiples vías en oposición a una variable binaria.

También es posible considerar las variables categóricas donde el número de categorías no se fija de antemano. A modo de ejemplo, para una variable categórica que describe una palabra en particular, puede ser que no sepa de antemano el tamaño del vocabulario, y nos gustaría tener en cuenta la posibilidad de que las palabras que encuentran que no hayamos visto ya. Modelos estadísticos estándar, tales como los relacionados con la distribución categórica y regresión logística multinomial, se supone que el número de categorías que se conoce de antemano, y cambiar el número de categorías sobre la marcha es difícil. En tales casos, se deben utilizar técnicas más avanzadas. Un ejemplo es el proceso de Dirichlet, que se inscribe en el ámbito de la estadística no paramétrica. En tal caso, se supone lógicamente que existe un número infinito de categorías, pero a la vez la mayoría de ellos nunca se han visto. Todas las fórmulas están redactadas en términos del número de categorías en realidad visto hasta ahora y no el número total de categorías posibles que existen, y los métodos se crean para la actualización gradual de distribuciones estadísticas, incluyendo la adición de "nuevas" categorías.

Las variables categóricas en regresión

Las variables categóricas representan un método cualitativo de los datos de puntuación. Estos pueden ser incluidos como variables independientes en un análisis de regresión, pero deben ser convertidos a los datos cuantitativos con el fin de ser capaz de analizar los datos. Uno lo hace a través del uso de sistemas de codificación. Los análisis se llevaron a cabo de tal manera que sólo se codifican g -1. Esta redundancia minimiza al mismo tiempo que representa los datos completo que hay información adicional se puede obtener de la codificación de los grupos totales de g: por ejemplo, cuando la codificación de género, si sólo código de mujeres todos de sobra necesariamente ser varones. En general, el grupo que uno no es el código para el grupo de menor interés.

Hay tres principales sistemas de codificación utilizados típicamente en el análisis de las variables categóricas en regresión: codificación ficticias, efectos de codificación, y la codificación de contraste. La ecuación de regresión adopta la forma de Y = bX a, donde b es la pendiente y da empíricamente el peso asignado a una EXPOSICIÓN, X es la variable explicativa, y es el punto de intersección, y estos valores adquieren diferentes significados basa en el sistema de codificación utilizado. La elección del sistema de codificación no afecta a las estadísticas F o R2. Sin embargo, se elige un sistema de codificación basado en la comparación de interés ya que la interpretación de los valores de b variará.

Codificación dummy

Codificación ficticia se utiliza cuando hay un grupo control o de comparación en la mente. Uno de ellos es por lo tanto, el análisis de los datos de un grupo en relación con el grupo de comparación: a representa la media del grupo de control y b es la diferencia entre la media del grupo experimental y la media del grupo de control. Se sugiere que los tres criterios deben cumplirse para especificar un grupo de control adecuado: el grupo debe ser un grupo bien establecido, debe haber una razón lógica para la selección de este grupo en comparación, y finalmente, el tamaño de la muestra Los grupos deben ser sustantivo y no es pequeña en comparación con los otros grupos.

En la codificación ficticias, el grupo de referencia se le asigna un valor de 0 para cada variable de código, el grupo de interés para la comparación con el grupo de referencia se le asigna un valor de 1 para su variable de código especificado, mientras que todos los otros grupos se les asigna 0 para que en particular variable de código.

Los valores de b deben interpretarse de tal manera que el grupo experimental se compara con el grupo de control. Por lo tanto, produciendo un valor b negativo implicaría el grupo experimental han anotado menos que el grupo de control en la variable dependiente. Para ilustrar esto, supongamos que estamos midiendo optimismo entre varias nacionalidades y hemos decidido que los franceses podrían servir como un control útil. Si estamos comparando contra los italianos, y se observa un valor b negativa, esto sugeriría italianos obtienen puntuaciones más bajas de optimismo en promedio.

La siguiente tabla es un ejemplo de codificación ficticias con el francés como el grupo control y C1, C2 y C3, respectivamente, siendo los códigos de italiano, alemán, y otros:

Efectos de codificación

A los efectos del sistema de codificación, los datos se analizaron por medio de la comparación de un grupo a todos los demás grupos. A diferencia de la codificación ficticias, no hay ningún grupo de control. Más bien, la comparación se hizo en la media de todos los grupos combinados. Por lo tanto, no se está buscando datos en relación a otro grupo, sino más bien, uno está buscando datos en relación a la media general.

Efectos de codificación pueden o bien ser ponderados o no ponderados. Efectos tabuladas codificación es simplemente calcular una media global ponderada, teniendo así en cuenta el tamaño de la muestra en cada variable. Este es el más apropiado en situaciones en que la muestra es representativa de la población de que se trate. Efectos no ponderados de codificación es el más apropiado en situaciones en las que las diferencias en tamaño de la muestra son el resultado de factores incidentales. La interpretación de b es diferente para cada uno: en efectos no ponderados de codificación b es la diferencia entre la media del grupo experimental y la gran media, mientras que en la situación ponderada es la media del grupo experimental menos la gran media ponderada.

A efectos de codificación, codificamos el grupo de interés con un 1, tal como lo haríamos para la codificación ficticias. La principal diferencia es que el código 1 para el grupo que estamos menos interesados pulg Como seguimos utilizando ag - 1 sistema de codificación, es, de hecho, el grupo codificado -1 que no produzca los datos, por lo tanto, el hecho de que somos menos interesados en ese grupo. Un código de 0 se asigna a todos los demás grupos.

Los valores de b deben interpretarse de tal manera que el grupo experimental se compara con la media de todos los grupos combinados. Por lo tanto, dando un valor b negativo implicaría el grupo codificado por haber anotado menos de la media de todos los grupos en la variable dependiente. Utilizando el ejemplo anterior de las puntuaciones de optimismo entre las nacionalidades, si el grupo de interés es italianos, observar un valor b negativo sugiero anotan obtener una puntuación menor optimismo.

En la siguiente tabla se muestra un ejemplo de los efectos de codificación con otros como el grupo de menor interés.

Codificación de contraste

El sistema de codificación de contraste permite al investigador preguntar directamente a preguntas específicas. En lugar de tener el sistema de codificación dictan la comparación se hizo uno puede diseñar un servicio de comidas de comparación único a uno de pregunta de investigación específica. Esta hipótesis se basa generalmente a la medida en la teoría anterior y/o de investigación. Las hipótesis propuestas son generalmente como sigue: primero, existe la hipótesis central que postula una gran diferencia entre los dos conjuntos de grupos; la segunda hipótesis sugiere que dentro de cada conjunto, las diferencias entre los grupos son pequeños. A través de sus a priori enfocadas hipótesis, la codificación de contraste pueden producir un aumento de la potencia de la prueba estadística en comparación con los sistemas de codificación anteriores menos dirigidos.

Algunas diferencias surgen cuando comparamos nuestros coeficientes a priori entre ANOVA y regresión. A diferencia de cuando se utiliza en ANOVA, donde es a discreción investigadores si eligen valores de los coeficientes que son ya sea ortogonal o no ortogonal, en la regresión, es esencial que el coeficiente de valores asignados en contraste codificación de ser ortogonal. Por otra parte, en la regresión, valores de los coeficientes deben estar en forma fraccionaria o decimal. Ellos no pueden tomar valores de intervalo.

La construcción de códigos de contraste está limitado por tres reglas:

  • La suma de los coeficientes de los contrastes por cada variable de código debe ser igual a cero.
  • La diferencia entre la suma de los coeficientes positivos y la suma de los coeficientes negativos debe ser igual a 1.
  • Variables codificadas deben ser ortogonales.
  • Violar la regla 2 produce R2 precisa y valores de F, lo que indica que llegaríamos a la misma conclusión acerca de si existe o no una diferencia significativa, sin embargo, ya no podemos interpretar los valores de b como una diferencia de medias.

    Para ilustrar la construcción de códigos de contraste considerar la siguiente tabla. Los coeficientes fueron escogidos para ilustrar nuestra hipótesis a priori: Hipótesis 1: Las personas franceses e italianos obtendrán más puntos en el optimismo de los alemanes. Esto se ilustra por medio de asignar el mismo coeficiente a las categorías de franceses e italianos y otro diferente a los alemanes. Las señales asignadas indican la dirección de la relación. Hipótesis 2: franceses e italianos se espera que difieren en sus puntuaciones de optimismo. Aquí, la asignación de un valor cero a alemanes demuestra su no inclusión en el análisis de esta hipótesis. Una vez más, las señales asignadas son indicativos de la relación propuesta.

    Codificación sin sentido

    Codificación sin sentido se produce cuando uno utiliza valores arbitrarios en lugar de la designada "0" s "1" s y "-1" s visto en los sistemas de codificación anteriores. A pesar de que produce valores medios correctos para las variables, no se recomienda el uso de la codificación sin sentido, ya que dará lugar a resultados estadísticos no interpretables.

    Interacciones

    Una interacción puede surgir cuando se considera la relación entre los tres o más variables, y describe una situación en la que la influencia simultánea de dos variables en la tercera no es aditivo. Las interacciones pueden surgir con las variables categóricas de dos maneras: o bien categóricos por la interacción de variables categóricas o categórica por la interacción de variables continuas.

    Categórico por interacciones variables categóricas

    Este tipo de interacción surge cuando tenemos dos variables categóricas. Con el fin de sondear este tipo de interacción, se podría codificar utilizando el sistema que se ocupa de la hipótesis del investigador más adecuado. El producto de los códigos produce la interacción. Uno puede entonces calcular el valor b y determinar si la interacción es significativa.

    Categórico por interacciones variables continuas

    Análisis de esquí simple es una prueba post hoc común utilizado en la regresión que es similar al análisis de los efectos simples en ANOVA, que se utiliza para analizar las interacciones. En esta prueba, estamos examinando los sencillos pendientes de una variable independiente a valores específicos de la otra variable independiente. Tal prueba no se limita al uso con las variables continuas, pero también se puede emplear cuando la variable independiente es categórica. No podemos elegir valores para investigar la interacción como lo haríamos en el caso de variable continua debido a la naturaleza de los datos nominales. En nuestro caso categórica usaríamos una ecuación de regresión simple para cada grupo para investigar las pistas sencillas. Es una práctica común para estandarizar las variables o centro para que los datos más interpretables en el análisis de esquí sencilla, sin embargo, las variables continuas nunca deben ser estandarizados o centrado. Esta prueba se puede utilizar con todos los sistemas de codificación.