Máxima verosimilitude

De testwiki
Saltar á navegación Saltar á procura

En estatística, a estimación por máxima verosimilitude ou máxima verosemellanza[1] (coñecida tamén como EMV e, en ocasións, MLE polas súas siglas en inglés) é un método habitual para axustar un modelo e estimar os seus parámetros.

Historia

Ronald Fisher en 1913

O método foi recomendado, analizado e popularizado por R. A. Fisher entre 1912 e 1922, aínda que fora utilizado antes por Carl Friedrich Gauss, Pierre-Simon Laplace, Thorvald N. Thiele e Francis Edgeworth.[2]

Fundamento

Supóñase que se ten unha mostra x1, x2, …, xn de n observacións independentes e identicamente distribuídas extraídas dunha función de distribución descoñecida con función de densidade (ou función de probabilidade) f0(·). Sábese, con todo, que f0 pertence a unha familia de distribucións Modelo:Nowrap}, chamada modelo paramétrico, de maneira que f0 corresponde a Modelo:Nowrap, que é o verdadeiro valor do parámetro. Deséxase atopar o valor θ^ (ou estimador) que estea o máis próximo posible ao verdadeiro valor θ0.

Tanto xi como θ poden ser vectores.

A idea deste método é a de atopar primeiro a función de densidade conxunta de todas as observacións, que baixo condicións de independencia, é

f(x1,x2,,xn|θ)=f(x1|θ)f(x2|θ)f(xn|θ)

Observando esta función baixo un ángulo lixeiramente distinto, pódese supor que os valores observados x1, x2, …, xn son fixos mentres que θ pode variar libremente. Esta é a función de verosimilitude:

(θ|x1,,xn)=i=1nf(xi|θ).

Na práctica, adóitase utilizar o logaritmo desta función:

^(θ|x1,,xn)=ln=i=1nlnf(xi|θ).

O método da máxima verosimilitude estima θ0 buscando o valor de θ que maximiza ^(θ|x). Este é o chamado estimador de máxima verosimilitude (MLE) de θ0:

θ^mle=argmaxθΘ ^(θ|x1,,xn).

En ocasións este estimador é unha función explícita dos datos observados x1, …, xn, pero moitas veces hai que recorrer a optimizacións numéricas. Tamén pode ocorrer que o máximo non sexa único ou non exista.

Na exposición anterior asumiuse a independencia das observacións, pero non é un requisito necesario: abonda con poder construír a función de probabilidade conxunta dos datos para poder aplicar o método. Un contexto no que isto é habitual é o da análise de series temporais.

Propiedades do estimador de máxima verosimilitude

En moitos casos, o estimador obtido por máxima verosimilitude posúe un conxunto de propiedades asintóticas atractivas:

  • consistencia,
  • normalidade asintótica,
  • eficiencia,
  • e mesmo eficiencia de segunda orde tras corrixir o nesgo.

Consistencia

Baixo certas condicións bastante habituais,[3] o estimador de máxima verosimilitude é consistente: se o número de observacións n tende a infinito, o estimador θ^ converxe en probabilidade ao seu valor verdadeiro:

θ^mle p θ0 .

Baixo condicións algo máis fortes,[3] a converxencia é case segura:

θ^mle a.s. θ0 .

Normalidade asintótica

Se as condicións para a consistencia se cumpren e ademais

  1. θ0int(Θ) ;
  2. f(x|θ)>0e é dúas veces continuamente diferenciable respecto a θnalgunha veciñanza N de θ0;
  3. supθθf(x|θ)dx<esupθθθf(x|θ)dx<
  4. I=𝔼[θlnf(x|θ0)θlnf(x|θ0)] existe e non é singular;
  5. 𝔼[supθθθlnf(x|θ)]<,

entón o estimador de máxima verosimilitude ten unha distribución asintótica normal:[4]

n(θ^mleθ0) d 𝒩(0,I1).

Invariancia funcional

Se θ^ é o EMV de θ e g(θ) é unha transformación de θ, entón o EMV de α = g(θ) é

α^=g(θ^).

Ademais, o EMV é invariante fronte a certas transformacións dos datos. En efecto, se Y=g(X) e g é unha aplicación bixectiva que non depende dos parámetros que se estiman, entón a función de densidade de Y é

fY(y)=fX(x)/|g(x)|

É dicir, as funcións de densidade de X e Y difiren unicamente nun termo que non depende dos parámetros. Así, por exemplo, o EMV para os parámetros dunha distribución lognormal son os mesmos que os dunha distribución normal axustada sobre o logaritmo dos datos de entrada.

Outras propiedades

O EMV é √n-consistente e asintóticamente eficiente. En particular, isto significa que o nesgo é cero até a orde n−1/2. Con todo, ao obter os termos de maior orde da expansión de Edgeworth da distribución do estimador, θemv ten un nesgo de orde −1. Este nesgo é igual a[5]

bsE[(θ^mleθ0)s]=1nIsiIjk(12Kijk+Jj,ik),

fórmula onde se adoptou a convención de Einstein para expresar sumas; Ijk representa a j,k-ésima compoñente da inversa da matriz de información de Fisher e

12Kijk+Jj,ik=E[123lnfθ0(xt)θiθjθk+lnfθ0(xt)θj2lnfθ0(xt)θiθk].

Grazas a estas fórmulas é posible estimar o nesgo de segunda orde do estimador e corrixilo mediante subtracción:

θ^mle*=θ^mleb^.

Este estimador, non nesgado até a orde n−1, chámase estimador de máxima verosimilitud con corrección do nesgo.

Exemplos

Distribución uniforme discreta

Supóñase que n bólas numeradas de 1 a n se colocan nunha urna e que unha delas se extrae ao azar. Se se descoñece n, o seu EMV é o número m que aparece na bóla extraída: a función de verosimilitude é 0 para n < m e 1/n para n ≥ m; que alcanza o seu máximo cando n = m. A esperanza matemática de n^, é (n + 1)/2. Como consecuencia, o EMV de n infravalorará o verdadeiro valor de n por (n − 1)/2.

Distribución discreta con parámetros discretos

Supóñase que se lanza unha moeda nesgada ao aire 80 veces. A mostra resultante pode ser x1 = H, x2 = T, ..., x80 = T, e cóntase o número de caras, "H". A probabilidade de que saia cara é p e a de que saia cruz, 1 − p (de modo que p é o parámetro θ). Supóñase que se obteñen 49 caras e 31 cruces. Imaxínese que a moeda se extraeu dunha caixa que contiña tres delas e que estas teñen probabilidades p iguais a 1/3, 1/2 e 2/3 aínda que non se sabe cal delas é cal.

A partir dos datos obtidos do experimento pódese saber cal é a moeda coa máxima verosimilitude. Empregando a función de probabilidade da distribución binomial cunha mostra de tamaño 80, número de éxitos igual a 49 e distintos valores de p, a función de verosimilitude toma os tres valores seguintes:

Pr(H=49p=1/3)=(8049)(1/3)49(11/3)310.000,Pr(H=49p=1/2)=(8049)(1/2)49(11/2)310.012,Pr(H=49p=2/3)=(8049)(2/3)49(12/3)310.054.

A verosimilitude é máxima cando p = 2/3 e este é, polo tanto, o EMV de p.

Aplicacións

O estimador de máxima verosimilitude úsase dentro dun gran número de modelos estatísticos:

  • modelos lineares xeneralizados
  • análise factorial
  • análise de ecuacións estruturais
  • tests estatísticos

 Notas

Modelo:Listaref

Véxase tamén

Bibliografía

Outros artigos

Ligazóns externas

Modelo:Control de autoridades