Distribución de Pearson, Historia, Definición, Los tipos particulares de distribución, Relación con otras distribuciones, Aplicaciones

La distribución de Pearson es una familia de distribuciones de probabilidad continuas. Fue publicado por primera vez por Karl Pearson en 1895 y posteriormente ampliado por él en 1901 y 1916 en una serie de artículos sobre bioestadística.

Historia

El sistema de Pearson se concibió originalmente, en un esfuerzo para modelar observaciones visiblemente sesgadas. Era bien sabido en el momento cómo ajustar un modelo teórico para adaptarse a los dos primeros cumulantes o momentos de los datos observados: Cualquier distribución de probabilidad se puede ampliar sin rodeos para formar una familia localización escala. Excepto en los casos patológicos, una familia ubicación escala se puede hacer para adaptarse a la media y la varianza observada arbitrariamente bien. Sin embargo, no se sabía cómo construir distribuciones de probabilidad en la que la asimetría y curtosis podrían ser ajustadas de forma igual libremente. Esta necesidad se hizo evidente cuando se trata de ajustar los modelos teóricos conocidos a los datos observados que mostraron asimetría. Ejemplos de Pearson incluyen los datos de supervivencia, que suelen ser asimétricas.

En su papel original, Pearson identificado cuatro tipos de distribuciones además de la distribución normal. La clasificación depende de si la distribución se apoyan en un intervalo limitado, en un medio-line o en toda la recta real, y si estaban potencialmente sesgados ni necesariamente simétrica. Un segundo artículo fija dos omisiones: redefinió la distribución tipo V e introdujo la distribución de tipo VI. Juntos, los dos primeros documentos cubren los cinco tipos principales del sistema de Pearson. En un tercer documento, Pearson introdujo casos y subtipos más especiales.

Rhind ideó una forma sencilla de visualizar el espacio de parámetros del sistema de Pearson, que fue aprobado posteriormente por Pearson. Los tipos de Pearson se caracterizan por dos cantidades, comúnmente se hace referencia como 1 y 2. El primero es el cuadrado de la asimetría:? Donde 1 es la asimetría, o tercer momento estandarizada. La segunda es la curtosis tradicional o cuarto momento estandarizada: 2 = 2 3 - El diagrama de la derecha muestra que Pearson escriba una distribución dada de concreto) pertenece a?.

Muchas de las distribuciones sesgadas y/o no mesocúrticas que nos son familiares eran todavía hoy desconocido en la década de 1890. Lo que ahora se conoce como la distribución beta había sido utilizado por Thomas Bayes como una distribución posterior del parámetro de una distribución de Bernoulli en su 1763 trabajo en la probabilidad inversa. La distribución Beta ganó prominencia debido a su participación en el sistema de Pearson y fue conocido hasta la década de 1940 como la distribución Pearson tipo I. La distribución gamma se originó a partir de la obra de Pearson y era conocido como la distribución Pearson tipo III, antes de adquirir su nombre actual en 1930 y 1940. El artículo de Pearson 1895 introdujo la distribución de tipo IV, que contiene la distribución t de Student como un caso especial, anterior a su uso posterior de William Sealy Gosset por varios años. Su papel de 1901 introdujo la distribución inversa-gamma y la distribución prime beta.

Definición

Una densidad de Pearson p se define como cualquier solución válida para la ecuación diferencial

con:

De acuerdo con Ord, Pearson ideó la forma subyacente de la ecuación sobre la base de, en primer lugar, la fórmula para la derivada del logaritmo de la función de densidad de la distribución normal y, en segundo lugar, a partir de una relación de recurrencia para los valores de la función de masa de probabilidad de la distribución hipergeométrica.

En la ecuación, el parámetro A determina un punto estacionario, y por lo tanto, bajo ciertas condiciones, un modo de la distribución, ya

sigue directamente de la ecuación diferencial.

Como nos enfrentamos a una primera ecuación diferencial lineal de orden con coeficientes variables, la solución es sencilla:

La integral en esta solución simplifica considerablemente cuando se consideran ciertos casos especiales de las integrando. Pearson distinguirse dos casos principales, determinado por el signo del discriminante de la función cuadrática

Los tipos particulares de distribución

Caso 1, discriminante negativo: La distribución Pearson tipo IV

Si el discriminante de la función cuadrática es negativa, no tiene raíces reales. A continuación, defina

 y

La ausencia de raíces reales es obvio a partir de esta formulación, porque a2 es necesariamente positivo.

Ahora expresamos la solución de la ecuación diferencial como una función de y:

Pearson llama a esto el "caso trigonométrica", ya que la integral

implica la función arco tangente trigonométrica inversa. Entonces

Por último, vamos a

 y

La aplicación de estas sustituciones, se obtiene la función paramétrica:

Esta densidad no normalizada tiene apoyo en toda la recta real. Todo depende de un parámetro de escala a> 0 y forma los parámetros m> 1/2 y?. Un parámetro se perdió cuando elegimos para encontrar la solución de la ecuación diferencial como una función de y en lugar de x. Por lo tanto, reintroducir un cuarto parámetro, es decir, el parámetro de ubicación?. Hemos derivado por lo tanto la densidad de la distribución de tipo IV Pearson:

La constante de normalización implica la función gamma complejo y la función Beta.

 El tipo de distribución de Pearson VII

El parámetro de forma? de la distribución de tipo IV Pearson controla su asimetría. Si fijamos el valor en cero, se obtiene una familia de tres parámetros simétrica. Este caso especial se conoce como el tipo de distribución de Pearson VII. Su densidad es

donde B es la función Beta.

Una parametrización alternativa de la distribución de tipo VII se obtiene dejando

que requiere m> 3/2 - Esto implica una menor pérdida de generalidad, pero asegura que existe la varianza de la distribución y es igual a S2. Ahora el parámetro m sólo controla la curtosis de la distribución. Si m tiende a infinito como? y s se mantienen constantes, la distribución normal surge como un caso especial:

Esta es la densidad de una distribución normal con media? y la desviación estándar s.

Es conveniente exigir que m> 5/2 y para dejar

Esta es otra especialidad, y garantiza la existencia de los cuatro primeros momentos de la distribución. Más específicamente, el tipo de distribución de Pearson VII parametrizado en términos de tiene una media de?, La desviación estándar de s, asimetría de cero, y el exceso de curtosis de? 2.

 Estudiante de la distribución t

El tipo de distribución de Pearson VII es equivalente a la distribución t de Student no estandarizados con los parámetros? > 0,, s2 mediante la aplicación de las siguientes sustituciones para su parametrización original de:

 y

Observe que la restricción m> 1/2 está satisfecho.

La densidad resultante es

que se reconoce fácilmente como la densidad de un estudiante de la distribución t.

Tenga en cuenta también que esto implica que el tipo de distribución de Pearson VII subsume la distribución t de Student y la distribución de Cauchy norma estándar. En particular, la distribución t de Student norma surge como una sub-caso, cuando = 0 y s2 = 1, equivalente a los siguientes substitutitons:

 y

La densidad de esta familia un parámetro restringido es la t de Student estándar:

Caso 2, discriminante no negativo

Si la función cuadrática tiene un discriminante no negativo, que tiene raíces reales a1 y a2:

En la presencia de raíces reales de la función cuadrática se puede escribir como

y la solución de la ecuación diferencial es por lo tanto

Pearson llama a esto el "caso logarítmica", ya que la integral

implica sólo la función logaritmo, y no la función arctan como en el caso anterior.

Uso de la sustitución

se obtiene la siguiente solución a la ecuación diferencial:

Desde esta densidad sólo se conoce hasta una constante de proporcionalidad oculta, que la constante se puede cambiar y la densidad escrita de la siguiente manera:

 El Pearson tipo I y tipo II de distribución

El tipo de distribución de Pearson que surge cuando las raíces de la ecuación cuadrática son de signo opuesto, es decir,

 

que produce una solución en términos de y que se apoyan en el intervalo:

Uno puede definir:

Reagrupación constantes y parámetros, esto se simplifica a:

Por lo tanto sigue una con

Resulta que m1, m2> -1 es necesario y suficiente que p sea una función de densidad de probabilidad adecuada.

 La distribución de Pearson de tipo II

La distribución Pearson tipo II es un caso especial de la familia de tipo I Pearson restringido a distribuciones simétricas.

Para la curva de Pearson Tipo II,

donde

el eje de ordenadas, y, es la frecuencia de. El Pearson Tipo II Curve se utiliza en el cálculo de la tabla de coeficientes de correlación significativos para coeficiente de correlación de Spearman cuando el número de elementos de una serie es inferior a 100. Después de eso, la distribución imita la distribución t de Student estándar. Para la tabla de valores, determinados valores se utilizan como las constantes en la ecuación anterior:

Los momentos de x son utilizados

 La distribución Pearson tipo III es

La distribución Pearson tipo III es una distribución gamma o distribución chi-cuadrado.

 El tipo de distribución de Pearson V

Definición de nuevos parámetros:

 sigue una

El tipo de distribución de Pearson V es una distribución inversa-gamma.

 El tipo de distribución de Pearson VI sigue a:

El tipo de distribución de Pearson VI es una distribución de primer beta o F-distribución.

Relación con otras distribuciones

La familia Pearson subsume las siguientes distribuciones, entre otros:

  • distribución beta
  • beta de distribución principal
  • Distribución de Cauchy
  • distribución chi-cuadrado
  • distribución uniforme continua
  • distribución exponencial
  • distribución gamma
  • Distribución F
  • distribución inversa-chi-cuadrado
  • distribución inversa-gamma
  • distribución normal
  • Estudiante de la distribución t

Aplicaciones

Estos modelos se utilizan en los mercados financieros, teniendo en cuenta su capacidad para ser parametrizado de una manera que tiene sentido intuitivo para los comerciantes del mercado. Algunos modelos son de uso corriente que capturan la naturaleza estocástica de la volatilidad de las tasas, acciones, etc y esta familia de distribuciones pueden llegar a ser uno de los más importantes.

En los Estados Unidos, el Log-Pearson III es la distribución por defecto para el análisis de frecuencia de crecidas.