Distribución normal multivariante

De testwiki
Saltar á navegación Saltar á procura

Modelo:Outros homónimos Modelo:Modelo de distribución de probabilidade En probabilidade e estatística, unha distribución normal multivariante, tamén chamada distribución gaussiana multivariante, é unha xeneralización da distribución normal unidimensional a dimensións superiores.

Caso xeral

Un vector aleatorio  X=[X1,,Xn]T segue unha distribución normal multivariante se satisfai as seguintes condicións equivalentes:

  • Toda combinación linear  Y=a1X1++anXn está normalmente distribuída.
  • Hai un vector aleatorio  Z=[Z1,,Zm]T, con compoñentes que son variables aleatorias independentes distribuídas segundo a normal estándar, un vector  μ=[μ1,,μn]T e unha matriz n×m  A tal que  X=AZ+μ.
  • Hai un vector μ e unha matriz semidefinida positiva simétrica  Σ tal que a función característica de X es

Modelo:Ecuación Se  Σ é unha matriz non singular, entón a distribución pode describirse pola seguinte función de densidade: Modelo:Ecuación onde  |Σ| é o determinante de  Σ. A ecuación redúcese á distribución normal se  Σ é un escalar (é dicir, unha matriz 1x1).

O vector μ nestas circunstancias é a esperanza de X e a matriz  Σ=AAT é a matriz de covarianza das compoñentes Xi.

É importante comprender que a matriz de covarianza pode ser singular (aínda que non estea así descrita pola fórmula de arriba, para a que  Σ1 está definida).

Este caso aparece con frecuencia en estatística; por exemplo, na distribución do vector de residuos en problemas ordinarios de regresión linear. Ademais, os Xi son en xeral non independentes; poden verse como o resultado de aplicar a transformación linear A a unha colección de variables normais Z.

Esta distribución dun vector aleatorio X que segue unha distribución normal multivariante pode ser descrita coa seguinte notación: Modelo:Ecuación ou facer explícito que X é n-dimensional, Modelo:Ecuación

Función de distribución

A función de distribución F(x) defínese como a probabilidade de que todos os valores dun vector aleatorio X sexan menores ou iguais que os valores correspondentes dun vector x. Aínda que F non teña unha fórmula, hai unha serie de algoritmos que permiten estimala numericamente.[1]

Contraexemplo

O feito de que dúas variables aleatorias X e Y sigan unha distribución normal, cada unha, non implica que o par (XY) siga unha distribución normal conxunta. Un exemplo simple dáse con X Normal(0,1), Y = X se |X| > 1 e Y = −X se |X| < 1. isto tamén é certo para máis de dúas variables aleatorias.

Normalmente distribuídas e independencia

Se X e Y están normalmente distribuídas e son independentes, a súa distribución conxunta tamén está normalmente distribuída, é dicir, o par (XY) debe ter unha distribución normal bivariante. En calquera caso, un par de variables aleatorias normalmente distribuídas non teñen por que ser independentes ao seren consideradas de forma conxunta.

Caso bivariante

No caso particular de dúas dimensións, a función de densidade (con media (0, 0)) é

f(x,y)=12πσxσy1ρ2exp(12(1ρ2)(x2σx2+y2σy22ρxy(σxσy)))

onde ρ é o coeficiente de correlación entre X e Y. Neste caso,

Σ=[σx2ρσxσyρσxσyσy2].

Transformación afín

Se Y=c+BX é unha transformación afín de X 𝒩(μ,Σ), onde c é un vector de constantes M×1 e B unha matriz M×N, entón Y ten unha distribución normal multivariante con esperanza c+Bμ e varianza BΣBT é dicir, Y𝒩(c+Bμ,BΣBT). En particular, calquera subconxunto dos Xi ten unha distribución marxinal que é tamén unha normal multivariante.

Para ver isto, pode considerarse o seguinte exemplo: para extraer o subconxunto (X1,X2,X4)T, emprégase

B=[100000010000000100]

o que extrae directamente os elementos desexados.

Outro corolario sería que a distribución de Z=bX, onde b é un vector da mesma lonxitude que X e o punto indica un produto vectorial, é unha distribución gaussiana unidimensional con Z𝒩(bμ,bTΣb). Este resultado obtense empregando

B=[b1b2bn000000]

e considerando só a primeira compoñente do produto (a primeira fila de B é o vector b). A definición positiva de Σ implica que a varianza do produto vectorial debería ser positiva.

Interpretación xeométrica

As curvas de equidensidade dunha distribución normal multivariante son elipsoides (é dicir, transformacións lineares de hiperesferas) centrados na media.[2] as direccións dos eixes principais dos elipsoides veñen dadas polos vectores propios da matriz de covarianza Σ. As lonxitudes relativas dos cadrados dos eixes principais veñen dadas polos correspondentes vectores propios.

Se Σ=UΛUT=UΛ1/2(UΛ1/2)T é unha descomposición espectral onde as columnas de U son vectores propios unitarios e Λ é unha matriz diagonal de valores propios, entón temos

X N(μ,Σ)X μ+UΛ1/2N(0,I)X μ+UN(0,Λ).

Ademais, U pode escollerse de tal modo que sexa unha matriz de rotación, tal que invertendo un eixe non teña ningún efecto en N(0,Λ), pero invertendo unha columna, cambie o signo do determinante de U'. A distribución N(μ,Σ) é en efecto N(0,I) escalada por Λ1/2, rotada por U e trasladada por μ.

Reciprocamente, calquera escolla de μ, matriz de rango completo U, e valores diagonais positivos Λi cede o paso a unha distribución normal non singular multivariante. Se calquera Λi é cero e U é cadrada, a matriz de covarianza UΛUT é singular. Xeometricamente isto significa que cada curva elipsoide é infinitamente delgada e ten volume cero nun espazo n-dimensional, así como, polo menos, un dos principais eixes ten lonxitude cero.

Correlacións e independencia

En xeral, as variables aleatorias poden ser incorreladas, pero altamente dependentes, mais se un vector aleatorio ten unha distribución normal multivariante, entón calquera dúas ou máis das súas compoñentes que sexan incorreladas, son independentes.

Porén, non é certo que dúas variables aleatorias que están (separadamente, marxinalmente) normalmente distribuídas e incorreladas sexan independentes. Dúas variables aleatorias que están normalmente distribuídas poden que non o estean conxuntamente.

Momentos máis altos

O momento estándar de k-ésima orde de X defínese como

μ1,,N(X) =def μr1,,rN(X) =def E[j=1NXjrj]

onde r1+r2++rN=k.

Os momentos centrais de orde k veñen dados como segue:

(a) Se k é impar, μ1,,N(Xμ)=0.

(b) Se k é par, con k=2λ, entón

μ1,,2λ(Xμ)=(σijσkσXZ)

onda a suma se toma sobre todas as disposicións de conxuntos {1,,2λ} en λ pares (non ordenados). É dicir, se se ten un k-ésimo (=2λ=6) momento central, estaranse a sumar os produtos de λ=3 covarianzas (a notación -μ suprimiuse para facilitar a lectura):

E[X1X2X3X4X5X6]=E[X1X2]E[X3X4]E[X5X6]+E[X1X2]E[X3X5]E[X4X6]+E[X1X2]E[X3X6]E[X4X5]+E[X1X3]E[X2X4]E[X5X6]+E[X1X3]E[X2X5]E[X4X6]+E[X1X3]E[X2X6]E[X4X5]+E[X1X4]E[X2X3]E[X5X6]+E[X1X4]E[X2X5]E[X3X6]+E[X1X4]E[X2X6]E[X3X5]+E[X1X5]E[X2X3]E[X4X6]+E[X1X5]E[X2X4]E[X3X6]+E[X1X5]E[X2X6]E[X3X4]+E[X1X6]E[X2X3]E[X4X5]+E[X1X6]E[X2X4]E[X3X5]+E[X1X6]E[X2X5]E[X3X4].

Isto dá lugar a (2λ1)!/(2λ1(λ1)!) termos na suma (15 no caso superior), nos que cada un é o produto de λ (3 neste caso) covarianzas. Para momentos de orde cuarta (catro variables) hai tres termos. Para momentos de orde sexta hai 3 × 5 = 15 termos, e para momentos de orde oitava hai 3 × 5 × 7 = 105 termos.

As covarianzas son entón determinadas mediante a substitución dos termos da lista [1,,2λ] polos termos correspondentes da lista que consiste en r1 uns, logo r2 douses etc... Para ilustrar isto, pode examinarse o seguinte caso de momento central de orde cuarta:

E[Xi4]=3σii2
E[Xi3Xj]=3σiiσij
E[Xi2Xj2]=σiiσjj+2(σij)2
E[Xi2XjXk]=σiiσjk+2σijσik
E[XiXjXkXn]=σijσkn+σikσjn+σinσjk.

onde σij é a covarianza de Xi e Xj. A idea do método descrito é que primeiro se atopa o caso xeral para o momento k-ésimo, onde se teñen k diferentes variables X - E[XiXjXkXn] e entón pódense simplificar apropiadamente. Se se ten E[Xi2XkXn] entón, simplemente se considera Xi=Xj e dedúcese que σii=σi2.

Distribucións condicionais

Se μ y Σ se dividen como segue:

μ=[μ1μ2] con tamaños [q×1(Nq)×1]
Σ=[Σ11Σ12Σ21Σ22] con tamaños [q×qq×(Nq)(Nq)×q(Nq)×(Nq)]

entón a distribución de x1 condicionada a x2=a é unha normal multivariante (X1|X2=a)N(μ¯,Σ) onde

μ¯=μ1+Σ12Σ221(aμ2)

e matriz de covarianza

Σ=Σ11Σ12Σ221Σ21.

Esta matriz é o complemento de Schur de Σ22 en Σ. Isto significa que para calcular a matriz condicional de covarianza se inverte a matriz global de covarianza, desprézanse as filas e as columnas correspondentes ás variables baixo as que está condicionada e entón invértese de novo para conseguir a matriz condicional de covarianza.

Sábese que x2=a altera a varianza, aínda que a nova varianza non dependa do valor específico de a; quizais resulta máis sorprendente que a media se cambia por Σ12Σ221(aμ2); pode compararse isto coa situación na que non se coñece o valor de a, caso no que x1 tería como distribución

Nq(μ1,Σ11).

A matriz Σ12Σ221 coñécese como a matriz de coeficientes de regresión.

Esperanza condicional bivariante

No caso

(X1X2)𝒩((00),(1ρρ1))

entón

E(X1|X2>z)=ρϕ(z)Φ(z)

onde esta última razón adoita chamarse razón inversa de Mills.

Matriz de información de Fisher

A matriz de información de Fisher (MIF) para unha distribución normal toma unha formulación especial. O elemento (m,n) da MIF para XN(μ(θ),Σ(θ)) é

m,n=μθmΣ1μθn+12tr(Σ1ΣθmΣ1Σθn)

onde

  • μθm=[μ1θmμ2θmμNθm]
  • μθm=(μθm)=[μ1θmμ2θmμNθm]
  • Σθm=[Σ1,1θmΣ1,2θmΣ1,NθmΣ2,1θmΣ2,2θmΣ2,NθmΣN,1θmΣN,2θmΣN,Nθm]
  • tr é a función traza dunha matriz.

Diverxencia de Kullback-Leibler

A diverxencia de Kullback-Leibler de N0N(μ0,Σ0) a N1N(μ1,Σ1) é:

DKL(N0N1)=12(loge(detΣ1detΣ0)+tr(Σ11Σ0)+(μ1μ0)Σ11(μ1μ0)N).

O logaritmo debe tomarse con base e nos dous termos (logaritmos neperianos); seguindo o logaritmo están os logaritmos neperianos das expresións que son ambos os factores da función de densidade ou se non, xorden naturalmente. A diverxencia de arriba mídese en nats. Dividindo a expresión de arriba por loge 2 dáse paso a a diverxencia en bits.

Estimación de parámetros

A función de densidade de probabilidade dunha normal multivariante N-dimensional é

f(x)=(2π)N/2det(Σ)1/2exp(12(xμ)TΣ1(xμ))

e o estimador de máxima verosimilitude da matriz de covarianza para unha mostra de n observacións é

Σ^=1ni=1n(XiX)(XiX)T

o que é, simplemente, a matriz da mostra de covarianza. Este é un estimador con nesgo que ten como esperanza

E[Σ^]=n1nΣ.

Unha covarianza da mostra sen nesgo é

Σ^=1n1i=1n(XiX)(XiX)T.

Entropía

A entropía diferencial da distribución normal multivariante é[3]

h(f)=f(x)lnf(x)dx=12(N+Nln(2π)+ln|Σ|)=12ln{(2πe)N|Σ|}

onde |Σ| é o determinante da matriz de covarianza Σ.

Tests de normalidade multivariante

Os tests de normalidade multivariante comproban a similitude dun conxunto dado de datos coa distribución normal multivariante. A hipótese nula é que o conxunto de datos é similar á distribución normal e polo tanto un p-valor suficientemente pequeno indica datos non normais. Os tests de normalidade multivariante inclúen o test de Cox-Small[4] e a adaptación de Smith y Jain [5] do test de Friedman-Rafsky.

Simulando valores da distribución

Un método amplamente empregado para simular un vector aleatorio X da distribución normal multivariada N-dimensional con vector de medias μ e matriz de covarianza Σ (requirida para que sexa simétrica e definida positiva) funciona como segue:

  1. Calcúlase a descomposición de Cholesky de Σ, é dicir, atópase a única matriz triangular inferior A tal que AAT=Σ. Podería empregarse calquera outra matriz A que satisfaga esta condición, ou sexa, que é un a raíz cadrada de Σ, mais habitualmente atopar esa matriz, distinta da da descomposición de Cholesky, sería bastante máis custoso en termos de computación.
  2. Sexa Z=(z1,,zN)T un vector con compoñentes N normais e independentes que varían e que pode xerarse, por exemplo, empregando o método de Box-Muller.
  3. Sexa X= μ+AZ.

Notas

Modelo:Listaref

Modelo:Control de autoridades