Distribuciones Tweedie, Ejemplos, Definiciones, El teorema de la convergencia Tweedie, Los modelos Tweedie y la ley de potencia Taylors, La ley de energía doble, Tweedie convergencia y ruido 1/f, Los modelos Tweedie y multifractality, Aplicaciones



En probabilidad y estadística, las distribuciones Tweedie son una familia de distribuciones de probabilidad que incluyen las distribuciones puramente continuos normales y gamma, la puramente discreta de distribución de Poisson escala, y la clase de compuestos distribuciones de Poisson-gamma mezclados que tienen masa positiva en cero, pero son de otra manera continua. Para cualquier variable aleatoria que obedece a una distribución de Tweedie, la varianza var se relaciona con el medio E por el poder de la ley,

donde a y p son constantes positivas.

La distribución de Tweedie fueron nombrados por Bent Jrgensen después Maurice Charles Kenneth Tweedie, un estadístico y físico médico de la Universidad de Liverpool, Reino Unido, que presentó el primer estudio exhaustivo de estas distribuciones en 1984.

Ejemplos

La distribución de Tweedie incluyen una serie de distribuciones conocidas, así como algunos raros, cada uno está especificado por el dominio del parámetro index. Tenemos la

  • distribución normal, p = 0,
  • Distribución de Poisson, p = 1,
  • compuesto distribución de Poisson-gamma, 1

  • distribución gamma, p = 2,
  • distribuciones estables positivos, 2

  • distribución gaussiana inversa, p = 3,
  • distribuciones estables positivos, p> 3, y
  • distribuciones estables extremas, p = 8.

Para 0

Definiciones

Distribuciones Tweedie son un caso especial de los modelos de dispersión exponenciales, una clase de los modelos utilizados para describir las distribuciones de error para el modelo lineal generalizado. El modelo de dispersión exponencial término se refiere a la forma exponencial que estos modelos tienen, evidente a partir de la ecuación canónica se utiliza para describir la distribución de P?,? de la variable aleatoria Z en los conjuntos medibles A,

,

con las medidas relacionadas entre sí?. ? es el parámetro canónica; la función es cumulante

 ;

? es el parámetro de índice, y la estadística z canónica. Esta ecuación representa una familia de modelos de dispersión exponencial ED * que están completamente determinado por los parámetros? y? y la función cumulante.

Modelos de dispersión exponencial aditivo

Los modelos se acaban de describir son modelos aditivos con la propiedad de que la distribución de la suma de variables aleatorias independientes,

,

para el que Zi ~ ED * con fijo? y diversos? son miembros de la familia de distribuciones con la misma?,

.

Modelos de dispersión exponencial Reproductivos

Una segunda clase de modelos de dispersión exponenciales existe designado por la variable aleatoria

,

donde s2 = 1 /?, conocido como modelos de dispersión exponenciales reproductivos. Ellos tienen la propiedad de que para n variables aleatorias independientes Yi ~ ED, con factores de ponderación wi y

,

un promedio ponderado de las variables da,

.

Para los modelos reproductivos de la media ponderada de variables aleatorias independientes con valores fijos y s2 y para diversos wi es un miembro de la familia de distribuciones con el mismo y s2.

Los modelos de dispersión exponencial Tweedie son tanto los efectos aditivos y reproductiva, por lo que tenemos la transformación de la dualidad

.

Invariancia de escala

Una tercera característica de los modelos Tweedie es que son invariantes de escala: Para una reproducción dispersión exponencial modelo ED y cualquier constante positiva c tenemos la característica de cierre en transformación de escala,

,

donde el parámetro p es un índice de valor real sin unidades constante. Con esta transformación la nueva variable Y = cY pertenece a la familia de distribuciones con valores fijos y s2 pero diferente de c.

La función de varianza de la potencia Tweedie

Para definir la función de la varianza para los modelos de dispersión exponenciales hacemos uso de la asignación del valor medio, la relación entre el parámetro canónica? y la media. Se define por la función

.

La función de la varianza V se construye a partir de la asignación del valor medio,

.

Aquí el exponente negativo en t -1 denota una función inversa en lugar de una relación recíproca. La media y la varianza de una variable aleatoria aditivo es entonces E =? y var = V.

Invarianza de escala implica que la función de la varianza obedece a la relación V = p.

Las funciones generadoras Cumulant Tweedie

Las propiedades de los modelos de dispersión exponencial nos dan dos ecuaciones diferenciales. El primero se refiere al mapeo valor medio y la función de la varianza entre sí,

.

La segunda muestra cómo el mapeo de valor medio está relacionado con la función cumulante,

.

Estas ecuaciones se pueden resolver para obtener la función cumulante para diferentes casos de los modelos Tweedie. Una función generadora de cumulante puede entonces obtenerse a partir de la función de cumulante. El CGF aditivo generalmente se especifica por la ecuación

,

y el CGF reproductiva

,

donde s es la variable de la función de generación.

Las funciones Cumulant para valores específicos del parámetro p índice son

,

donde a es el exponente Tweedie

.

Para los modelos Tweedie aditivos los CGF adoptan la forma,

,

y para los modelos reproductivos,

.

El modelos Tweedie reproductivos aditivo y se denotan convencionalmente por los símbolos Tw * p y Twp, respectivamente.

Las primera y segunda derivadas de los CGF, con s = 0, se obtiene la media y la varianza, respectivamente. Así se puede confirmar que para los modelos aditivos de la varianza se refiere a la media por la ley de potencia,

.

El teorema de la convergencia Tweedie

Los modelos de dispersión exponencial Tweedie son fundamentales en la teoría estadística, como consecuencia de su papel como focos de convergencia para una amplia gama de procesos estadísticos. Jrgensen et al demostró un teorema que especifica el comportamiento asintótico de las funciones de varianza conocidos como el teorema de la convergencia Tweedie "Este teorema, en términos técnicos, se indica por lo tanto:. La función de variación de la unidad es regular de orden p en cero siempre que V ~ C0P para ya que se aproxima a cero para todos los valores reales de p y c0> 0. Entonces, para una función de la varianza unidad regular de orden p en cero o infinito y para

,

como o, respectivamente, donde la convergencia es a través de los valores de c tal que c se encuentra en el dominio de? y cp-2/s2 está en el dominio de?. El modelo debe ser infinitamente divisible como c2-p tiende a infinito.

En términos no técnicos este teorema implica que se requiere cualquier modelo de dispersión exponencial que se manifiesta asintóticamente una variación en el sentido de la ley de potencia para tener una función de la varianza que viene dentro del dominio de la atracción de un modelo de Tweedie. Casi todas las funciones de distribución con finitos funciones generadoras Cumulant califican como modelos de dispersión exponencial y modelos de dispersión más funciones exponenciales manifiestan varianza de este formulario. Por lo tanto muchas distribuciones de probabilidad tienen funciones de varianza que expresan este comportamiento asintótico, y las distribuciones Tweedie se convierten en focos de convergencia para una amplia gama de tipos de datos.

Los modelos Tweedie y la ley de potencia Taylors

Ley de potencia de Taylor es una ley empírica de la ecología que relaciona la variación del número de individuos de una especie por unidad de área de hábitat a la media correspondiente por una relación de ley de potencia. Para el recuento de la población Y con media y varianza var, Taylors ley está escrito:

,

donde a y p son dos constantes positivas. Desde LR Taylor describe esta ley en 1961 ha habido muchas explicaciones diferentes que se ofrecen a explicarlo, que van desde el comportamiento animal, un modelo de paseo aleatorio, estocástico un nacimiento, la muerte, la inmigración y el modelo de la emigración, a consecuencia de equilibrio y no equilibrio estadístico la mecánica. No existe consenso en cuanto a la explicación de este modelo.

Puesto que la ley Taylors es matemáticamente idéntica a la variación en el sentido de la ley de energía que caracteriza a los modelos Tweedie, parece razonable utilizar estos modelos y el teorema de convergencia Tweedie para explicar el agrupamiento observado en los animales y las plantas asociadas con la legislación Taylors. La mayoría de los valores observados para el exponente de ley de potencia p, han caído en el intervalo y por lo que el compuesto Tweedie distribución de Poisson-gamma parece particularmente aplicable. Comparación de la función de distribución empírica para el compuesto distribución teórica de Poisson-gamma ha proporcionado un medio para verificar la consistencia de esta hipótesis.

Mientras que los modelos convencionales para la ley Taylors han tendido a implicar supuestos dinámicos ad hoc de los animales de comportamiento o de la población, el teorema de la convergencia Tweedie implicaría que los resultados de la ley Taylors de un efecto de convergencia matemática general, tanto como la forma del teorema del límite central gobierna el comportamiento de convergencia de ciertos tipos de datos aleatorios. De hecho, se requiere cualquier modelo matemático, aproximación o simulación que está diseñado para producir la ley Taylor a converger a la forma de los modelos Tweedie.

La ley de energía doble

Ley de potencia del epónimo Taylor se ha aplicado a una amplia gama de datos que se manifiesta una variación en el sentido de función de potencia. Sin embargo, existen diferencias sutiles matemáticas entre las propiedades de transformación de algunos de estos datos. Una ley de potencia doble, que incluye ley original Taylors, se ha propuesto para describir estas diferencias. Para un recuento de la población extraída de un área del tamaño de t con abundancia media por unidad de superficie, y donde

,

tenemos a la ley de doble poder:

.

La constante d? ha sido identificado como un exponente fractal. El factor AP representa la ley Taylors original, una función de la abundancia media por unidad de área; el último término t2-d describe cómo las escalas de ley de potencia con el tamaño de bin enumerativo. Este último término implica una ampliación estadísticamente auto-similar de la distribución espacial de los elementos de interés como el tamaño de los cambios de basura. Es esta segunda parte de la ley de doble potencia que subyace a la varianza en el sentido de la ley de potencia como se informó en los sistemas de heterogeneidad regional de sangre de flujo, la distribución genómica de los SNP y de los genes, y ejemplos de teoría de números.

Tweedie convergencia y ruido 1/f

El ruido rosa o ruido 1/f, se refiere a un patrón de ruido que se caracteriza por una relación de ley de potencia entre sus intensidades S a diferentes frecuencias f,

,

donde el exponente adimensional . Se encuentra dentro de un número diverso de procesos naturales. Existen muchas explicaciones diferentes para el ruido 1/f, una hipótesis muy extendida se basa en la criticidad auto-organizada en sistemas dinámicos cerca de un punto crítico se cree que el comportamiento espacial y/o temporal invariante en escala manifiesto.

En este apartado se describirá una conexión matemática entre 1/f ruido y la varianza Tweedie en el sentido de la ley de potencia. Para empezar, primero tenemos que introducir procesos auto-similares: Para la secuencia de números

con una media de

,

desviaciones

,

desacuerdo

,

y la función de autocorrelación

con retardo k, si la autocorrelación de esta secuencia tiene el comportamiento de largo alcance

como k? 8 y donde L es una función que varía lentamente en grandes valores de k, esta secuencia se denomina un proceso de auto-similar.

El método de expansión de contenedores puede ser utilizado para analizar los procesos de auto-similares. Considere la posibilidad de un conjunto de cubos de igual tamaño que no se solapan en que se divide la secuencia original de N elementos en grupos de m segmentos de igual tamaño para que las nuevas secuencias de reproducción, a partir de los valores medios, se pueden definir:

.

La diferencia determinada a partir de esta secuencia se escala según el tamaño bin cambia de tal manera que

si y sólo si la autocorrelación tiene la forma limitante

.

También se puede construir un conjunto de secuencias de aditivos correspondientes

,

sobre la base de los contenedores de expansión,

.

Siempre que la función de autocorrelación exhibe el mismo comportamiento, las secuencias de aditivos obedecerán la relación

Dado que son constantes y esta relación constituye una variación en el sentido de la ley de potencia, con p = 2-d.

La relación bicondicional anterior entre la varianza en el sentido de la ley de energía y la función de autocorrelación ley de potencia, y el teorema de Wiener-Khinchin implica que cualquier secuencia que presenta una variación en el sentido de la ley de potencia por el método de la ampliación de contenedores también se manifestará ruido 1/f, y viceversa. Por otra parte, el teorema de la convergencia Tweedie, en virtud de su efecto central de límite-como de generar distribuciones de manifiesto que la varianza en el sentido de las funciones de alimentación, también generar procesos que se manifiestan ruido 1/f. El teorema de la convergencia Tweedie permite así ofrece una explicación alternativa para el origen del ruido 1/f, basó su efecto central límite-como.

Por mucho que el teorema del límite central requiere ciertos tipos de procesos aleatorios que tienen como foco de su convergencia a la distribución de Gauss y por lo tanto expresan ruido blanco, el teorema de convergencia Tweedie requiere ciertos procesos no Gaussianos tengan como foco de convergencia de las distribuciones Tweedie que express 1/f ruido.

Los modelos Tweedie y multifractality

A partir de las propiedades de los procesos de auto-similares, la ley de potencia exponente p = 2-d está relacionada con el exponente de Hurst H y la dimensión fractal D por

.

Una secuencia de datos de una sola dimensión de los datos de auto-similares puede mostrar una variación en el sentido de la ley de potencia con variaciones locales en el valor de p y por lo tanto en el valor de D. Cuando estructuras fractales se manifiestan variaciones locales en la dimensión fractal, que se dice que son Multifractales. Ejemplos de secuencias de datos que presentan variaciones locales en la p así como las desviaciones de los valores propios de los conjuntos ortogonales y Unitarios de Gauss. El compuesto distribución de Poisson-gamma Tweedie ha servido para modelar multifractality basado en las variaciones locales en la Tweedie exponente a. Por consiguiente, en conjunción con la variación de una, el teorema de la convergencia Tweedie puede ser visto como que tiene un papel en la génesis de tales Multifractales.

Aplicaciones

El flujo sanguíneo a los órganos regionales

Regional de flujo sanguíneo de órganos ha sido tradicionalmente evaluado por la inyección de microesferas de polietileno radiomarcado en la circulación arterial de los animales, de un tamaño que se convierten atrapado dentro de la microcirculación de órganos. El órgano de evaluarse se divide en cubos de igual tamaño y la cantidad de marcador radiactivo dentro de cada cubo se evalúa mediante recuento de centelleo líquido y se registró. Se toma la cantidad de radiactividad en cada cubo para reflejar el flujo de sangre a través de la muestra en el momento de la inyección. Es posible evaluar los cubos adyacentes de un órgano con el fin de determinar de forma aditiva el flujo de sangre a través de las regiones más grandes. A través de la obra de JB Bassingthwaighte y otros una ley de potencia empírica se ha obtenido entre la dispersión relativa del flujo sanguíneo de las muestras de tejido de masa m con respecto a las muestras de referencia de tamaño:

Esta fuente de la ley exponente Ds se ha llamado una dimensión fractal. Ley de potencia Bassingthwaightes se puede demostrar que se relacionan directamente con la varianza en el sentido de la ley de potencia. Regional de flujo sanguíneo a los órganos por lo tanto puede ser modelado por el compuesto distribución de Poisson-gamma Tweedie. En este modelo de muestra de tejido se podría considerar para contener un número aleatorio distribuido de sitios de atrapamiento, cada uno con gamma flujo de sangre distribuida. El flujo de sangre en este nivel de la microcirculación se ha observado que obedecer a una distribución gamma, proporcionando así soporte para esta hipótesis.

La metástasis del cáncer

El "ensayo de metástasis del cáncer experimental" tiene cierta semejanza con el método anterior para medir el flujo sanguíneo regional. Grupos de ratones singénicos emparejados y la edad se les da inyecciones intravenosas de alícuotas de igual tamaño de suspensiones de células de cáncer de clonados y luego después de un período determinado de tiempo se eliminan sus pulmones y el número de metástasis de cáncer enumeran dentro de cada par de pulmones. Si otros grupos de ratones se inyectan con diferentes clones de células cancerosas a continuación, el número de metástasis por grupo será diferente de acuerdo con los potenciales metastáticos de los clones. Se ha reconocido desde hace tiempo que no puede haber una variación considerable intraclonal en el número de metástasis por ratón a pesar de los intentos de mantener las condiciones experimentales uniforme dentro de cada grupo clonal. Esta variación es más grande de lo que cabría esperar sobre la base de una distribución de Poisson de números de metástasis por ratón en cada clon y cuando la variación del número de metástasis por ratón se representó frente a la correspondiente significa que se encontró una ley de potencia.

Se encontró que la variación en el sentido de la ley de potencia para las metástasis de celebrar también para metástasis murinos espontáneos y para los casos de metástasis series humanos. Dado que la metástasis hematógena se produce en relación directa con el flujo sanguíneo regional y videomicroscopic estudios indican que el pasaje y el atrapamiento de las células cancerosas dentro de la circulación parece análoga a los experimentos de microesferas que parecía plausible proponer que la variación en el número de metástasis hematógenas podría reflejar la heterogeneidad en regionales el flujo sanguíneo del órgano. El modelo de flujo de la sangre se basa en el compuesto distribución de Poisson-gamma Tweedie, una distribución que rige una variable aleatoria continua. Por esa razón en el modelo de metástasis se asumió que el flujo de sangre se rige por que la distribución y que el número de metástasis regionales se produjo como un proceso de Poisson para el que la intensidad era directamente proporcional al flujo de sangre. Esto condujo a la descripción de la distribución binomial negativa de Poisson como una discreta equivalente al compuesto distribución de Poisson-gamma Tweedie. La función de generación de probabilidad para la distribución es PNB

.

La relación entre la media y la varianza de la distribución PNB es luego

,

que, en el rango de muchos ensayos de metástasis experimentales, sería indistinguible de la varianza en el sentido de la ley de potencia. Por la escasez de datos, sin embargo, esta variación discreta en el sentido de la relación se comportaría más como la de una distribución de Poisson, donde la varianza igualó la media.

Estructura genómica y la evolución

La densidad local de polimorfismos de nucleótido único en el genoma humano, así como la de los genes, aparece a agruparse de acuerdo con la varianza en el sentido de la ley de potencia y el compuesto Tweedie distribución de Poisson-gamma. En el caso de SNPs su densidad observada refleja las técnicas de evaluación, la disponibilidad de secuencias genómicas para el análisis y la heterocigosidad nucleotídica. Los dos primeros factores reflejan permitan determinar con errores inherentes a los métodos de recogida, el último factor refleja una propiedad intrínseca del genoma.

En el modelo de coalescencia de la genética de poblaciones cada locus genético tiene su propia historia. Dentro de la evolución de una población de algunas especies de algunos loci genéticos presumiblemente podrían remontarse a un antepasado común relativamente reciente, mientras que otros loci pueden tener genealogías más antiguas. Segmentos genómicos más antiguos habrían tenido más tiempo para acumular SNPs y experimentar recombinación. RR Hudson ha propuesto un modelo en el que la recombinación podría causar variación en el tiempo para ancestro reciente más común para diferentes segmentos genómicos. Una alta tasa de recombinación podría causar un cromosoma para contener un gran número de pequeños segmentos con genealogías menos correlacionados.

Suponiendo una tasa de mutación de fondo constante el número de SNPs por segmento genómico se acumularía proporcionalmente al tiempo para el ancestro común más reciente. Actual teoría genética de la población indicaría que estos tiempos serían gamma distribuidos, en promedio. El compuesto Tweedie distribución de Poisson-gamma sugeriría un modelo mediante el cual el mapa de SNP consistiría en múltiples pequeños segmentos genómicos con la media del número de SNPs por segmento sería gamma distribuido como modelo por Hudson.

La distribución de los genes en el genoma humano también demostró una variación en el sentido de la ley de potencia, cuando se utilizó el método de expansión de contenedores para determinar las variaciones y los medios correspondientes. Del mismo modo se descubrió que el número de genes por bin enumerativa a obedecer un compuesto Tweedie distribución de Poisson-gamma. Esta distribución de probabilidad se considera compatible con dos modelos biológicos diferentes: el modelo microarrangement donde el número de genes por unidad de longitud genómica se determinó por la suma de un número aleatorio de segmentos genómicos más pequeños derivados por rotura aleatoria y la reconstrucción de protochormosomes. Estos segmentos más pequeños se supone que llevar en promedio un número distribuido gamma de genes.

En el modelo de grupo de genes alternativa, los genes se distribuyen al azar en los protochromosomes. Sobre grandes escalas de tiempo evolutivas no habría ocurrir duplicación en tándem, mutaciones, inserciones, deleciones y reordenamientos que pueden afectar a los genes a través de un nacimiento estocástico, la muerte y el proceso de inmigración para producir el compuesto Tweedie distribución de Poisson-gamma.

Ambos mecanismos implicarían procesos evolutivos neutrales que puedan resultar en la agrupación regional de genes.

Teoría de matrices aleatorias

El conjunto unitario de Gauss consiste en matrices hermitianas complejos que son invariantes bajo transformaciones unitarias, mientras que el conjunto ortogonal de Gauss consiste en matrices reales simétricas invariantes bajo transformaciones ortogonales. Los valores propios clasificados baño de estas matrices aleatorias obedecen Wigner distribución semicircular: Para una matriz NxN la densidad media de los valores propios de tamaño E será

como E? 8. Integración de la regla semicircular proporciona el número de valores propios, en promedio, menos de E,

.

Los valores propios ranking se puede desplegar o renormalizado, con la ecuación

.

Esto elimina la tendencia de la secuencia de la porción fluctuante. Si nos fijamos en el valor absoluto de la diferencia entre el número acumulado actual y esperado de valores propios

se obtiene una secuencia de valores propios de las fluctuaciones que, utilizando el método de expansión de contenedores, revela una variación en el sentido de la ley de potencia. Las fluctuaciones de valores propios de tanto GUE y el manifiesto GOE esta ley de potencia con los exponentes de ley de potencia que oscilan entre 1 y 2, y que se manifiestan de manera similar espectros de ruido 1/f. Estas fluctuaciones de valores propios corresponden también al compuesto distribución de Poisson-gamma Tweedie y exhiben multifractality.

La distribución de los números primos

La segunda función de Chebyshev? está dada por,

donde la suma se extiende a todos los poderes principales que no excedan de x, x se ejecuta a través de los números reales positivos, y es la función de von Mangoldt. La función? está relacionada con la función primo p-conteo, y, como tal, proporciona información con respecto a la distribución de los números primos entre los números reales. Es asintótica a x, una declaración equivalente al teorema del número primo y también se puede demostrar que estar relacionado con los ceros de la función zeta de Riemann situados en la franja crítica?, Donde la parte real de la zeta cero? está entre 0 y 1 - ¿Entonces? expresado para x mayor que uno puede ser escrito:

donde

 La hipótesis de Riemann establece que los ceros no triviales de la función zeta de Riemann tienen parte real. Estos ceros función zeta están relacionados con la distribución de los números primos. Schoenfeld ha demostrado que si la hipótesis de Riemann es verdad, entonces

 

Otras aplicaciones

Aplicaciones de las distribuciones de Tweedie incluyen:

  • estudios actuariales
  • análisis de ensayo
  • análisis de supervivencia
  • ecología
  • análisis del consumo de alcohol en los adolescentes británicos
  • aplicaciones médicas
  • meteorología y climatología
  • la pesca
  • Función de Mertens