Capítulo 8 MÉTODOS DE OBTENCIÓN DE ESTIMADORES
En el capítulo anterior hemos analizado el problema de la estimación puntual desde el punto de vista de, dado un estimador, ver ?qué tan bueno es? para estimar un parámetro. Otra cuestión que nos podemos plantear, de hecho la primera cuestión que hay que plantearse en la práctica, es cómo obtener un estimador ?razonablemente bueno? de un parámetro. De hecho, desde el punto de vista práctico parece razonable empezar por ver cómo se obtiene un estimador y, una vez obtenido, analizar ?cuán bueno resulta?. Existen muchos métodos para obtener estimadores, cada uno de los cuales puede llevarnos a unos resultados de diferente calidad. Los principales métodos de estimación son:
- Método de los momentos
- Método de la máxima verosimilitud
- Método de Bayes
- Otros métodos
8.1 El método de los momentos
Este método fue introducido por K. Pearson a finales del siglo XIX y es el principio en que nos basamos cuando hacemos una estimación de la media o de la varianza poblacional a partir de la media o la varianza muestrales. La idea del método de los momentos es bastante intuitiva. Si lo que queremos estimar (uno o varios parámetros) es una función de los momentos poblacionales, entonces una estimación razonable puede consistir en tomar como estimador la misma función en la que los momentos poblacionales han sido sustituidos por los momentos muestrales. Dado que estos últimos son estimadores consistentes de los momentos poblacionales, en condiciones bastante generales se puede garantizar que los estimadores obtenidos serán estimadores consistentes para las funciones de los momentos poblacionales estimadas. Algunos ejemplos típicos de estimadores basados en el método de los momentos son:
\[ \widehat{\mu}=\bar{X}_{n} \quad \widehat{\sigma}=\sqrt{S^{2}} \quad \widehat{\sigma^{2}}=S^{2} \]
Sea un modelo estadístico, \(\left\{X \sim F_{\theta}: \theta \in \Theta\right\}\), y \(X_{1}, X_{2}, \ldots, X_{n}\) una muestra aleatoria simple de \(X\). Sean \(m_{1}, m_{2}, ?, m_{k}\) los momentos poblacionales de orden \(1,2, ?, k\) de \(X\), que suponemos que existen,
\[ m_{k}=E\left(X^{k}\right) \]
y \(a_{1}, a_{2}, ?, a_{k}\) los momentos muestrales respectivos
\[ a_{k}\left(X_{1}, X_{2}, \ldots, X_{n}\right)=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k} \]
Suponemos que estamos interesados en estimar:
\[ \theta=h\left(m_{1}, m_{2}, \ldots, m_{p}\right), \]
donde \(h\) es una función conocida. Definició 3.1 El método de los momentos consiste en estimar \(\theta\) por el estadístico
\[ T(\mathbf{X})=h\left(a_{1}, a_{2}, \ldots, a_{p}\right) \]
8.1.1 Observaciones
- El método se extiende de forma sencilla a la estimación de momentos conjuntos. Podemos usar \(\frac{1}{n} \sum_{i=1}^{n} X_{i} Y_{i}\) para estimar \(E(X Y)\), etc.
- Por la ley débil de los grandes números,
\[ a_{k}\left(X_{1}, X_{2}, \ldots, X_{n}\right)=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k} \xrightarrow{P} E\left(X^{k}\right), \]
de modo que si lo que queremos es estimar los momentos muestrales, el método garantiza que los estimadores son consistentes y sin sesgo.
En este caso, además, los estimadores son asintóticamente normales. Si lo que se desea estimar es una función \(h\) continua de los momentos, entonces el método garantiza que el estimador \(T(\mathbf{X})\) es consistente y, bajo ciertas condiciones de regularidad, también es asintóticamente normal.
Ejemplo 3.1.1 Sea \(X \sim \Gamma(p, \alpha)\). Queremos estimar \(p\) y \(\alpha\). En lugar de conocer la función \(h\left(\theta_{1}, \theta_{2}\right)\) sabemos que:
\[ \begin{aligned} m_{1} & =\frac{p}{\alpha}=E(X) \\ m_{2} & =\frac{p(p+1)}{\alpha^{2}}=E\left(X^{2}\right) \\ & =V(X)+[E(X)]^{2}=\frac{p}{\alpha^{2}}+\left(\frac{p}{\alpha}\right)^{2}=\frac{p^{2}+p}{\alpha^{2}}= \end{aligned} \]
De modo que podemos obtener las funciones deseadas ?aislando? p y \(\alpha\) como funciones de \(m_{1}\) y \(m_{2}\) :
\[ \begin{aligned} \alpha^{2} & =\frac{p^{2}}{m_{1}^{2}} \\ \alpha^{2} & =\frac{p(p+1)}{m_{2}} \end{aligned} \]
Procediendo por igualación:
\[ \begin{aligned} & \frac{p^{2}}{m_{1}^{2}}=\frac{p(p+1)}{m_{2}} \\ & \frac{p}{m_{1}}=\frac{p+1}{m_{2}} \\ & p m_{2}=p m_{1}^{2}+m_{1}^{2} \\ & p\left(m_{2}-m_{1}^{2}\right)=m_{1}^{2} \\ & p=\frac{m_{1}^{2}}{m_{2}-m_{1}^{2}} \\ & \alpha=\frac{m_{1}^{2}}{m_{2}-m_{1}^{2}} \\ & m_{1} \end{aligned} \frac{m_{1}}{m_{2}-m_{1}^{2}} . \]
Los estimadores por el método de los momentos se obtendrán ahora sustituyendo \(p\) y \(\alpha\) por \(\hat{p}\) y \(\hat{\alpha}\) en la expresión anterior, es decir:
\[ \widehat{p}=\frac{a_{1}^{2}}{a_{2}-a_{1}^{2}} \]
Hacemos lo mismo para el parámetro \(\alpha\) :
\[ \widehat{\alpha}=\frac{a_{1}}{a_{2}-a_{1}^{2}} \]
8.2 El método del máximo de verosimilitud
8.2.0.1 Introducción
El método de la máxima verosimilitud, introducido por Fisher, es un método de estimación que se basa en la función de verosimilitud, presentada en el capítulo anterior. Básicamente consiste en tomar como estimadores de los parámetros aquellos valores que hagan más probable observar precisamente lo que se ha observado, es decir, que hagan que la muestra observada resulte más verosímil.
Ejemplo 3.2.1 Tomemos 5 papeles. En cada uno de ellos ponemos o bien un ?+? o bien un ?-?, sin que se sepa qué hay en cada papel, y los guardamos en una bolsa. Nuestro objetivo es estimar el número de papeles con el signo ?? escrito. Extraemos tres papeles, devolviéndolos a la bolsa después de cada extracción, y observamos que ha salido lo siguiente: ?++-?. Los valores posibles para la probabilidad de ?-?, llamémosla p, son:
En la bolsa hay | \(p\) |
---|---|
\(4 ?+\) ?, 1 ?-? | 0,2 |
\(3 ?+\) ?, 2 ?-? | 0,4 |
\(2 ?+\) ?, 3 ?-? | 0,6 |
\(1 ?+\) ?, 4 ?-? | 0,8 |
Supongamos que la variable \(X\) mide el número de ?-? en tres extracciones consecutivas y que, por tanto, sigue una distribución binomial:
\[ X \sim B(3, p(?-?)) \]
La probabilidad de sacar un ?-? es:
\[ P_{p}[X=1]=\binom{3}{1} \cdot p^{1}(1-p)^{2} \]
Para cada uno de los valores de p, las probabilidades quedan asi:
\(p\) | \(P_{p}[X=1]\) |
---|---|
0.2 | \(3 \cdot 0.2 \cdot 0.8^{2}=0.384\) |
0.4 | \(3 \cdot 0.4 \cdot 0.6^{2}=0.432\) |
0.6 | \(3 \cdot 0.6 \cdot 0.4^{2}=0.288\) |
0.8 | \(3 \cdot 0.8 \cdot 0.2^{2}=0.096\) |
El valor de p que da una probabilidad mayor a la muestra, es decir, que la hace más verosímil, es \(p=0.4\). El método del máximo de verosimilitud consiste precisamente en tomar este valor como estimación de \(p\).
8.2.0.2 La función de verosimilitud
Una vez introducido el método con un ejemplo, podemos pasar a definirlo con mayor precisión. Para ello, comenzaremos con el concepto de función de verosimilitud. En el capítulo anterior presentamos la función de verosimilitud como la función que resulta de considerar que, en la función de probabilidad de la muestra, el parámetro es variable y la muestra queda fija. Es decir:
\[ \underbrace{f\left(x_{1}, x_{2}, \ldots, x_{n} ; \theta\right)}_{\mathbf{x} \text { variable, } \theta \text { fijo }} \longrightarrow \underbrace{L\left(\theta ; x_{1}, x_{2}, \ldots, x_{n}\right)}_{\mathbf{x} \text { fija, } \theta \text { variable }} \]
Esta definición es básicamente correcta. En el caso de las variables discretas, donde \(f\left(x_{1}, x_{2}, \ldots, x_{n} ; \theta\right)\) representa la probabilidad de la muestra, fijado \(\theta\), resulta intuitivamente claro decir que la verosimilitud representa la ?probabilidad de la muestra para cada valor del parámetro?. Refiriéndonos al ejemplo introductorio, resulta sencillo ver que se trata de ?dos puntos de vista? sobre la misma función. Fijado un valor del parámetro, por ejemplo, 0.4 , podemos considerar la probabilidad de diversas muestras posibles, como \(x=0, x=1, \ldots\), hasta \(x=3\) :
\[ \begin{aligned} f\left(x_{1}, x_{2}, \ldots, x_{n} ; \theta\right) & =P_{0.4}[X=x], x=0,1, \ldots, 3 \\ & =\binom{3}{x} \cdot 0.4^{x}(0.6)^{3-x} . \end{aligned} \]
Análogamente, fijada una muestra, por ejemplo, \(x=1\), podemos considerar la probabilidad de esta para diversos valores del parámetro, \(p=0,0.2, \ldots, 1\).
\[ \begin{aligned} L\left(x_{1}, x_{2}, \ldots, x_{n} ; \theta\right) & =P_{p}[X=1], x=0,0.2,0.4, \ldots, 1 \\ & =3 \cdot p(1-p)^{2} . \end{aligned} \]
En el caso de las distribuciones absolutamente continuas, el significado de la función de verosimilitud ya no es intuitivamente tan claro como en el caso de las discretas. En este caso, la función de densidad de la muestra ya no representa la probabilidad de esta como en el caso de las discretas. Algunos autores intentan solucionar esto explicando que existe una conocida aproximación en que la función de densidad es la probabilidad de un suceso ?infinitesimal?. Lo que es importante en la función de verosimilitud, a la hora de hacer inferencias, es la parte que es función del parámetro. Esto hace que a menudo se considere que la expresión de la función de verosimilitud mantenga solo aquella parte de \(f\left(x_{1}, x_{2}, \ldots, x_{n} ; \theta\right)\) que depende de \(\theta\), ignorando la parte que dependa solo de la muestra. Es decir, si podemos factorizar \(f\left(x_{1}, x_{2}, \ldots, x_{n} ; \theta\right)\) como
\[ f(\mathbf{x} ; \theta)=c(\mathbf{x}) \cdot g(\mathbf{x} ; \theta) \]
podremos prescindir de la ?constante? \(c(x)\) (constante porque no depende de \(\theta\) ) al considerar la verosimilitud.
\[ L(\theta ; \mathbf{x})=g(\mathbf{x} ; \theta) \propto f(\mathbf{x} ; \theta) \]
Esto implica que \(L(\theta ; \mathbf{x})\) no tiene por qué integrar a 1 , como en el caso de las probabilidades, y que depende de las unidades de medida.
Ejemplo 3.2.2 Si \(X\) es discreta, \(X \sim \mathcal{P}(\lambda)\), y suponemos \(n=1\) (muestras de tamaño 1), tenemos que la f.d.p. de la muestra es:
\[ P[x ; \lambda]=e^{-\lambda} \frac{\lambda^{x}}{x!} \]
con \(x=0,1, \ldots\) Ahora, si hemos observado \(x=5\), la función de verosimilitud vale:
\[ L(\lambda ; 5)=e^{-\lambda} \lambda^{5}\left[\frac{1}{5!}\right] \]
Como solo nos interesa la parte que es función de \(\lambda\), podemos ignorar \(\frac{1}{5!}\), es decir:
\[ L(\lambda ; 5)=e^{-\lambda} \lambda^{5} \propto P[\mathbf{x} ; \lambda] . \]
Ejemplo 3.2.3 Si dada una muestra de tamaño 1, por ejemplo, \(x=2\), de una ley de Poisson \(\mathcal{P}(\lambda)\) queremos comparar sus verosimilitudes respecto de los valores del parámetro \(\lambda=1.5\) o \(\lambda=3\), lo que haremos será basarnos en la razón de verosimilitudes:
\[ \begin{aligned} \Lambda(\mathbf{x}) & =\frac{L\left(\lambda_{1} ; x\right)}{L\left(\lambda_{2} ; x\right)}=\frac{L(1.5 ; 2)}{L(3 ; 2)} \\ & =\frac{e^{-1.5} 1.5^{2}\left[\frac{1}{2!}\right]}{e^{-3} 3^{2}\left[\frac{1}{2!}\right]}=\frac{e^{-1.5} 1.5^{2}}{e^{-3} 3^{2}}=\frac{0.5020}{0.4481}=1.12 . \end{aligned} \]
Como se observa, al basarnos en la razón de verosimilitudes, la parte correspondiente solo a la muestra no se toma en cuenta. La razón de verosimilitudes sugiere que el valor \(\lambda=1.5\) hace la muestra más verosímil.
8.2.0.3 El método del máximo de verosimilitud
Si partimos de las dos ideas que hemos visto en la introducción:
- Escoger como estimación el valor que maximice la probabilidad de la muestra observada.
- La verosimilitud de la muestra es una aproximación a la probabilidad de esta como función del valor del parámetro.
Una forma razonable de definir el EMV es entonces como aquel que maximice la verosimilitud.
Definició 3.2 Un estimador \(T: \Omega \longrightarrow \Theta\) es un estimador del máximo de verosimilitud para el parámetro \(\theta\) si cumple:
\[ L(T(\mathbf{x}) ; \mathbf{x})=\sup _{\theta \in \Theta} L(\theta ; \mathbf{x}) \]
Como suele ocurrir en problemas de maximización, este valor ni existe necesariamente ni tiene por qué ser único. Ahora bien, bajo ciertas condiciones (las habituales para los problemas de máximos y mínimos) el problema se podrá reducir a buscar un máximo para la función de verosimilitud.
Ejemplo 3.2.4 Supongamos que \(x_{1}, \ldots, x_{n}\) es una muestra de una población de Bernouilli, \(X \sim B e(p)\), donde queremos estimar p. La función de masa de la probabilidad de \(X\) es:
\[ P\left[X=x_{i}\right]=P\left(x_{i} ; p\right)=p^{x_{i}}(1-p)^{1-x_{i}} \text { donde } x_{i} \in\{0,1\} ; i=1, \ldots, n \]
La función de verosimilitud es:
\[ L(p ; \mathbf{x})=\prod_{i=1}^{n} p^{x_{i}}(1-p)^{1-x_{i}}=p^{\sum_{i=1}^{n} x_{i}}(1-p)^{\sum_{i=1}^{n}\left(1-x_{i}\right)} \]
Debemos buscar el máximo de \(L(p ; \mathbf{x})\). En este caso, como en otros, es más sencillo buscar el máximo de su logaritmo, que, dado que es una función monótona, es el mismo que el máximo de \(L\)
\[ \ln L(p ; x)=\left(\sum_{i=1}^{n} x_{i}\right) \cdot \ln p+\left(n-\sum_{i=1}^{n} x_{i}\right) \cdot \ln (1-p) \]
Derivamos respecto a p:
\[ \frac{\partial \ln L(p ; x)}{\partial p}=\frac{\sum_{i=1}^{n} x_{i}}{p}-\frac{n-\sum_{i=1}^{n} x_{i}}{1-p} \]
e igualamos a cero la derivada, planteando lo que se denomina la ecuación de verosimilitud, cuyas soluciones nos conducirán eventualmente al estimador del máximo de verosimilitud.
\[ \frac{\sum_{i=1}^{n} x_{i}-n \hat{p}}{\hat{p}(1-\hat{p})}=0 \Rightarrow \hat{p}=\frac{\sum_{i=1}^{n} x_{i}}{n} \]
Si la segunda derivada es negativa en \(\widehat{p}\) entonces será un máximo:
\[ \begin{aligned} \frac{\partial^{2} \ln L(p ; x)}{\partial p^{2}} & =\frac{\partial}{\partial p}\left(\frac{\sum_{i=1}^{n} x_{i}-n p}{p(1-p)}\right)=\frac{-n[p(1-p)]-\left(\sum_{i=1}^{n} x_{i}-n p\right) \cdot(1-2 p)}{p^{2}\left(1-p^{2}\right)}= \\ & =\frac{-n p+n p^{2}-\sum_{i=1}^{n} x_{i}-n p-2 p \sum_{i=1}^{n} x_{i}-2 n p^{2}}{p^{2}(1-p)^{2}}= \\ & =\frac{\left[\sum_{i=1}^{n} x_{i}(1+2 p)-n p^{2}\right]}{p^{2} \cdot(1-p)^{2}} \end{aligned} \]
que es negativa cuando \(p=\hat{p}\), de forma que \(\hat{p}\) es efectivamente un máximo. El método analítico expuesto en el ejemplo anterior, consistente en el cálculo de un extremo de una función, no se puede aplicar en todas las situaciones. En estos casos, una alternativa puede ser estudiar directamente la función de verosimilitud. Veamos un ejemplo:
Ejemplo 3.2.5 Sea \(X_{1}, \ldots, X_{n} \stackrel{i i d}{\sim} X \sim U(0, \theta) \quad \theta>0\) desconocido. Sabemos que:
\[ f(x ; \theta)=\left\{\begin{array}{c} \frac{1}{\theta} \text { si } 0<\min \left\{x_{i}\right\} \leq \max \left\{x_{i}\right\} \leq \theta \\ 0 \quad \text { en caso contrario } \end{array}\right\} \]
La derivada respecto a \(\theta\) es \(-\frac{n}{\theta^{n-1}}\), que se anula cuando \(\theta \underset{n \rightarrow \infty}{\longrightarrow} \infty\) que lleva a una solución sin sentido de la ecuación de verosimilitud. Una inspección de la gráfica de la función de verosimilitud revela que el EMV, en este caso,
Figura 3.1: Función de verosimilitud para una distribución uniforme es \(\max \left\{X_{i}, \ldots, X_{n}\right\}\). Efectivamente, consideremos cualquier otro valor \(\theta^{*}\) diferente del máximo:
\[ \begin{aligned} & \text { Si } \theta^{*}>X_{(n)} \Rightarrow \frac{1}{\left(\theta^{*}\right)^{n}}<\frac{1}{\left(X_{n}\right)^{n}}, \\ & \text { Si } \theta^{*}<X_{(n)} \Rightarrow L\left(\theta^{*} ; \mathbf{x}\right)=0 \end{aligned} \]
ya que si un estimador toma un valor inferior al máximo de la muestra habrá algún valor muestral, \(x_{i}\) para el cual se verificará que \(\theta^{*}<x_{i}\), lo que hace la muestra inverosímil, y por tanto el estimador no es admisible. A la vista de lo anterior, deducimos que el valor que maximiza \(L(\theta ; \mathbf{x})\) es el máximo de la muestra.
Ejemplo 3.2.6 El método del máximo de verosimilitud se extiende de forma inmediata a los parámetros \(K\)-dimensionales. Consideremos el caso de la ley normal \(X \sim N\left(\mu, \sigma^{2}\right)\). Aquí el parámetro \(\theta\) es bidimensional, es decir: \(\theta=\left(\mu, \sigma^{2}\right) \in \Theta=\mathbb{R} \times \mathbb{R}^{+}\)
- La función de verosimilitud de una muestra de tamaño \(n\) es:
\[ L\left(\left(\mu, \sigma^{2}\right) ; \mathbf{x}\right)=\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}}=\frac{1}{(2 \pi)^{n / 2}\left(\sigma^{2}(n / 2\right.} e^{-\frac{\sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}} \]
- Sacando logaritmos
\[ \log L\left(\left(\mu, \sigma^{2}\right) ; \mathbf{x}\right)=-\frac{n}{2} \log (2 \pi)-\frac{n}{2} \log \left(\sigma^{2}\right)-\frac{\sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}} \]
- La derivada de \(L()\) es la matriz de derivadas:
\[ D \log L\left(\left(\mu, \sigma^{2}\right) ; \mathbf{x}\right)=\binom{\frac{\partial \log L\left(\left(\mu, \sigma^{2}\right) ; \mathbf{x}\right)}{\partial \mu}}{\frac{\partial \log L\left(\left(\mu, \sigma^{2}\right) ; \mathbf{x}\right)}{\partial \sigma^{2}}}=\left\{\begin{array}{c} \frac{\sum_{i=1}^{n}\left(x_{i}-\mu\right)}{\sigma^{2}} \\ \frac{\sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}}{2 \sigma^{4}}-\frac{n}{2 \sigma^{2}} \end{array}\right. \]
- Planteando y resolviendo la ecuación de verosimilitud tenemos:
\[ D \log L\left(\left(\hat{\mu}, \hat{\sigma}^{2}\right) ; \mathbf{x}\right)=\left\{\begin{array}{c} \frac{\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}\right)}{\hat{\sigma}^{2}}=0 \\ \frac{\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}\right)^{2}}{2 \hat{\sigma}^{4}}=\frac{n}{2 \hat{\sigma}^{2}} \end{array}\right. \]
de donde las raíces de la ecuación de verosimilitud son:
\[ \hat{m} u=\bar{x}, \quad \hat{\sigma}^{2}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}{n}=s^{2} . \]
- Para decidir si las raíces de la ecuación de verosimilitud corresponden a un máximo, analizamos la matriz de derivadas segundas, denominada Hessiana.
\[ H=\left(\begin{array}{cc} \frac{\partial^{2} z}{\partial x^{2}} & \frac{\partial^{2} z}{\partial x \partial y} \\ \frac{\partial^{2} z}{\partial y \partial x} & \frac{\partial^{2} z}{\partial y^{2}} \end{array}\right) \]
Una condición suficiente para que un punto \(\left(x_{0}, y_{0}\right)\) sea un máximo es que el determinante de \(H\) sea positivo y el menor en la posición ?11? negativo, es decir: \(S i|H|>\left.0 y \frac{\partial^{2} z}{\partial x^{2}}\right|_{\left(x_{0}, y_{0}\right)}<0 \Longrightarrow\) Hay un máximo relativo en \(\left(x_{0}, y_{0}\right)\). Si evaluamos el Hessiano en el punto \(\left(\bar{x}, s^{2}\right)\) tenemos:
\[ H=\left(\begin{array}{cc} -\frac{n}{s^{2}} & 0 \\ 0 & -\frac{n}{2 s^{4}} \end{array}\right) . \]
Las condiciones de extremo que hemos dado más arriba se verifican: \(H_{11}<0 y|H|>0\), de manera que podemos concluir que el estimador del máximo de verosimilitud de \(\left(\mu, \sigma^{2}\right)\) es, efectivamente, \(\left(\bar{x}, s^{2}\right)\).