La determinación del tamaño de muestra, Estimación de proporciones y medias, Tamaño de las muestras necesarias para las pruebas de hipótesis, Tamaño de la muestra estratificada

La determinación del tamaño de la muestra es el acto de elegir el número de observaciones o replica a incluir en una muestra estadística. El tamaño de la muestra es una característica importante de cualquier estudio empírico en el que el objetivo es hacer inferencias acerca de una población de una muestra. En la práctica, el tamaño de muestra utilizado en un estudio se determinó con base en la costa de recopilación de datos, y la necesidad de tener suficiente poder estadístico. En estudios complicados puede haber varios diferentes tamaños de las muestras implicadas en el estudio: por ejemplo, en una encuesta de muestreo implica el muestreo estratificado no habría diferentes tamaños de muestra para cada población. En un censo, se recogen datos sobre toda la población, por lo tanto, el tamaño de la muestra es igual al tamaño de la población. En el diseño experimental, donde un estudio se puede dividir en diferentes grupos de tratamiento, puede haber diferentes tamaños de muestra para cada grupo.

Los tamaños de muestra se pueden elegir de varias maneras diferentes:

  • conveniencia - Por ejemplo, incluya esos elementos fácilmente disponibles o conveniente para recoger. Una selección de muestras pequeñas, aunque a veces es necesario, puede dar lugar a amplios intervalos de confianza o los riesgos de errores en las pruebas de hipótesis estadísticas.
  • usando una variación objetivo para una estimación que se deriva de la muestra finalmente obtenida
  • con un objetivo de potencia de una prueba estadística que se aplicará una vez que se tomó la muestra.

¿Cómo se toman las muestras que se discute en el muestreo y recogida de datos de la encuesta.

Muestras de mayor tamaño suelen dar lugar a una mayor precisión en la estimación de parámetros desconocidos. Por ejemplo, si deseamos conocer la proporción de una determinada especie de pescado que está infectado con un patógeno, nos suelen tener una estimación más precisa de esta proporción si probamos y examinamos 200, en lugar de 100 peces. Varios hechos fundamentales de la estadística matemática describen este fenómeno, incluyendo la ley de los grandes números y el teorema del límite central.

En algunas situaciones, el aumento de la precisión para muestras de mayor tamaño es mínimo, o incluso inexistente. Esto puede resultar de la presencia de errores sistemáticos o fuerte dependencia en los datos, o si los datos siguen una distribución de cola pesada.

Tamaños de las muestras se juzgan sobre la base de la calidad de las estimaciones resultantes. Por ejemplo, si se estima una proporción, se puede desear tener el intervalo de confianza del 95% sea menos de 0,06 unidades de ancho. Alternativamente, tamaño de la muestra se puede evaluar sobre la base de la potencia de una prueba de hipótesis. Por ejemplo, si estamos comparando el apoyo a un determinado candidato político entre las mujeres con el apoyo de ese candidato entre los hombres, es posible que desee tener un poder del 80% para detectar una diferencia en los niveles de soporte de 0,04 unidades.

Estimación de proporciones y medias

Una situación relativamente simple es la estimación de una proporción. Por ejemplo, es posible que desee para estimar la proporción de residentes de una comunidad que tengan al menos 65 años de edad.

El estimador de una proporción es, donde X es el número de observaciones "positivos". Cuando las observaciones son independientes, este estimador tiene una distribución binomial. La varianza máximo de esta distribución es 0,25/n, que se produce cuando el parámetro verdadero es p = 0,5 - En la práctica, puesto que p es desconocida, la varianza máxima se utiliza a menudo para las evaluaciones de tamaño de la muestra.

Para n suficientemente grande, la distribución de estará estrechamente aproximarse por una distribución normal con la misma media y la varianza. Usando esta aproximación, se puede demostrar que alrededor del 95% de probabilidad de esta distribución se encuentra dentro de 2 desviaciones estándar de la media. Debido a esto, un intervalo de la forma

se forma un intervalo de confianza del 95% para la proporción real. Si este intervalo tiene que ser no más de unidades de ancho W, la ecuación

puede ser resuelto para n, dando n = 4/W2 = 1/B2 donde B es la cota de error en la estimación, es decir, la estimación se da generalmente como dentro de B. Por lo tanto, para B = 10% requiere una n = 100 , para B = 5% se necesita n = 400, para B = 3% el requisito se aproxima a n = 1000, mientras que para B = 1% de una muestra de tamaño n = 10,000 se requiere. Estas cifras se citan a menudo en las noticias de sondeos de opinión o encuestas por muestreo.

Estimación de los medios

Una proporción es un caso especial de una media. Cuando la estimación de la media de la población utilizando una muestra independiente e idénticamente distribuida de tamaño n, donde cada valor de datos tiene una varianza s2, el error estándar de la muestra media es:

Esta expresión describe cuantitativamente la forma en la estimación se hace más precisa a medida que aumenta tamaño de la muestra. Usando el teorema del límite central para justificar la aproximación de la media de la muestra con una distribución normal se obtiene un intervalo de confianza del 95% aproximado de la forma

Si queremos tener un nivel de confianza que es unidades W de ancho, resolveríamos

para n, dando el tamaño de la muestra n = 16s2/W2.

Por ejemplo, si estamos interesados en estimar el importe por el que un fármaco disminuye la presión arterial de un sujeto con un intervalo de confianza que es de seis unidades de ancho, y sabemos que la desviación estándar de la presión arterial en la población es de 15, entonces la muestra requerida tamaño es 100.

Tamaño de las muestras necesarias para las pruebas de hipótesis

Un problema común que enfrentan los estadísticos es calcular el tamaño de muestra necesario para producir un cierto poder para una prueba, dada una determinada tasa de error de Tipo I a. Como se indica, esto puede ser estimado por tablas predeterminadas para ciertos valores, por la ecuación de recursos de Mead, o, más en general, por la función de distribución acumulativa:

Por las tablas

La tabla que se muestra a la derecha se puede utilizar en una muestra de dos t-test para estimar los tamaños de las muestras de un grupo experimental y un grupo control que son de igual tamaño, es decir, el número total de personas en el juicio es el doble de la de el número dado, y de significación deseado es 0.05. Los parámetros utilizados son los siguientes:

  • La potencia estadística deseada de la prueba, que se muestra en la columna a la izquierda.
  • D de Cohen, que es la diferencia esperada entre las medias de los valores objetivo entre el grupo experimental y el grupo de control, dividida por la desviación típica esperada.

Ecuación de los recursos de Mead

Ecuación de los recursos de Mead se utiliza a menudo para estimar tamaños de las muestras de los animales de laboratorio, así como en muchos otros experimentos de laboratorio. Puede que no sea tan preciso como el uso de otros métodos para estimar el tamaño de la muestra, pero da una idea de lo que es el tamaño adecuado de la muestra que parámetros como la desviación estándar esperado o diferencias esperadas en los valores entre los grupos son desconocidos o muy difícil de estimar.

Todos los parámetros de la ecuación son, de hecho, los grados de libertad del número de sus conceptos, y por lo tanto, sus números se restan por 1 antes de la inserción en la ecuación.

La ecuación es:

donde:

  • N es el número total de individuos o unidades en el estudio
  • B es el componente de bloqueo, que representa los efectos ambientales permitidas para el diseño
  • T es el componente de tratamiento, que corresponde al número de los grupos de tratamiento que se utilizan, o el número de preguntas que se hacen
  • E es los grados de libertad de la componente de error, y debe estar en algún lugar entre 10 y 20.

Por ejemplo, si un estudio con animales de laboratorio se ha previsto con cuatro grupos de tratamiento, con ocho animales por grupo, haciendo total de 32 animales, sin ninguna estratificación más, entonces E sería igual a 28, la cual está por encima del punto de corte de 20, lo que indica que el tamaño de la muestra puede ser un poco demasiado grande, y seis animales por grupo podría ser más apropiado.

Por función de distribución acumulativa

Vamos Xi, i = 1, 2, ..., n sea observaciones independientes tomadas de una distribución normal con media desconocida y conocida varianza s2. Vamos a considerar dos hipótesis, una hipótesis nula:

y una hipótesis alternativa:

por alguna "diferencia menor significativa '*> 0. Este es el valor más pequeño para el que nos preocupamos por la observación de la diferencia. Ahora, si queremos rechazar H0 con una probabilidad de al menos 1 - cuando Ha es verdadera, y rechazar H0 con probabilidad a cuando H0 es cierta, entonces tenemos lo siguiente:

Si za es la parte superior de un punto porcentual de la distribución normal estándar, entonces

y entonces

 "Rechazar H0 si nuestro promedio de la muestra es más que"

Es una regla de decisión que satisface.

Ahora queremos que esto suceda, con una probabilidad de al menos 1 - cuando Ha es verdadera. En este caso, el promedio de la muestra vendrá de una distribución normal con media *. Por lo tanto se requiere

A través de la manipulación cuidadosa, este se puede demostrar que suceder cuando

donde es la función de distribución acumulada normal.

Tamaño de la muestra estratificada

Con las técnicas de muestreo más complicados, como el muestreo estratificado, la muestra a menudo puede ser dividido en sub-muestras. Por lo general, si hay k tal submuestras entonces cada uno de ellos tendrá una muestra ni el tamaño, yo = 1, 2, ..., k. Estos ni debe ser conforme a la regla de que n1 n2 ... Nk = n. Selección de éstos ni de manera óptima se puede hacer de varias maneras, utilizando la asignación óptima de Neyman.

Hay muchas razones para utilizar el muestreo estratificado: disminuir las variaciones de las estimaciones de la muestra, para utilizar en parte los métodos no aleatorios, o estudiar individualmente los estratos. Un método útil, en parte no aleatoria sería la de individuos de la muestra que de fácil acceso, pero, cuando no, los conglomerados de muestra para ahorrar gastos de viaje.

En general, para H estratos, una media de la muestra es ponderada

con

Los pesos, W, con frecuencia, pero no siempre, representan las proporciones de los elementos de la población en los estratos, y W = N/N. Para un tamaño de muestra fijo, es decir,

que se puede hacer un mínimo si la frecuencia de muestreo dentro de cada estrato se hace proporcional a la desviación típica dentro de cada estrato:.

Se alcanza un "asignación óptima" cuando las tasas de muestreo dentro de los estratos se hacen directamente proporcional a las desviaciones estándar dentro de los estratos y inversamente proporcionales a las raíces cuadradas de los costes por elemento dentro de los estratos:

o, más generalmente, cuando