Modelo estadístico, Definición formal, Comparación entre modelos, Un ejemplo, Clasificación

Un modelo estadístico es una formalización de las relaciones entre las variables en la forma de ecuaciones matemáticas. Un modelo estadístico que describe cómo una o más variables aleatorias están relacionados con una o más variables. El modelo estadístico es que las variables no son determinista pero estocásticamente relacionados. En términos matemáticos, un modelo estadístico se cree con frecuencia como un par de donde es el conjunto de posibles observaciones y el conjunto de posibles distribuciones de probabilidad sobre. Se supone que hay un elemento distinto del que genera los datos observados. La inferencia estadística nos permite hacer afirmaciones sobre qué elemento de este conjunto es probable que sean la verdadera.

Mayoría de las pruebas estadísticas se pueden describir en la forma de un modelo estadístico. Por ejemplo, la prueba de la t de Student para comparar las medias de dos grupos se puede formular como ver si es un parámetro estimado en el modelo es diferente de 0. Otra similitud entre las pruebas y modelos es que hay supuestos implicados. Se asume error que se distribuye normalmente en la mayoría de los modelos.

Definición formal

Un modelo no paramétrico es un conjunto de distribuciones de probabilidad con parámetros de dimensión infinita, y puede escribirse como. Un modelo semi-paramétrico también tiene parámetros dimensionales infinitos pero no es denso en el espacio de las distribuciones. Por ejemplo, una mezcla de gaussianas con una gaussiana en cada punto de datos es denso en el espacio de las distribuciones. Formalmente, si d es la dimensión del parámetro, y n es el número de muestras, si como y como, a continuación, el modelo es semi-paramétrico.

Comparación entre modelos

Los modelos pueden ser comparados entre sí. Esto se puede hacer cuando se ha hecho un análisis exploratorio de datos o de la Confirmación. En el análisis exploratorio, a formular todos los modelos que se pueda imaginar, y ver cuál describe mejor sus datos. En un análisis de confirmación que prueba que de los modelos que usted ha descrito antes se recogieron los datos ajusta a los datos mejor, o la prueba de si su único modelo se ajusta a los datos. En análisis de regresión lineal se puede comparar la cantidad de varianza explicada por las variables independientes, R2, a través de los diferentes modelos. En general, usted puede comparar los modelos que están anidadas utilizando una prueba de razón de verosimilitud. Modelos anidados son modelos que se pueden obtener mediante la restricción de un parámetro en un modelo más complejo para ser cero.

Un ejemplo

Altura y edad son distribuidos probabilísticamente sobre los seres humanos. Ellos son estocásticamente relacionados; cuando se sabe que una persona es de 7 años de edad, esto influye en la probabilidad de que esta persona es de 6 pies de altura. Se podría formalizar esta relación en un modelo de regresión lineal de la forma siguiente: heighti = b0 b1agei ei, donde b0 es el intercepto, b1 es un parámetro que edad se multiplica por obtener una predicción de altura, e es el término de error y i es el tema. Esto significa que la altura empieza en algún valor, hay una altura mínima cuando alguien nace, y se predice por la edad a una cierta cantidad. Esta predicción no es perfecta como se incluye en el modelo de error. Este error contiene varianza que se deriva de sexo y otras variables. Cuando el sexo se incluye en el modelo, el término de error será menor, ya que tendrá una mejor idea de la posibilidad de que un particular, de 16 años es de 6 pies de altura cuando se sabe este joven de 16 años es una niña. El modelo se convertiría heighti = b0 b1agei b2sexi ei, donde la variable sexo es dicotómica. Este modelo supone tener un mayor R2. El primer modelo se anida en el segundo modelo: el primer modelo se obtiene a partir de la segunda cuando b2 está restringido a cero.

Clasificación

De acuerdo con el número de las variables endógenas y el número de ecuaciones, los modelos se pueden clasificar como modelos completos y modelos incompletos. Algunos otros modelos estadísticos son el modelo general lineal, el modelo lineal generalizado, el modelo multinivel, y el modelo de ecuaciones estructurales.