Inferencia
8.2 Pruebas de hipótesis bajo el supuesto de normalidad {-}
Una vez hemos estimado los parámetros \(\hat{\beta}=(X'X)^{-1}X'y\),
y la varianza del estimador \(Var[\beta|X]=\hat{\sigma}^{2}(X'X)^{-1}\),
es necesario preguntarnos qué tan cercanos son los resultados de la regresión poblacional.
Para que los parámetros sean cercanos necesitamos como condición que los estimados \(\hat{\beta}\) sean estadísticamente distintos de cero.
En lenguaje de pruebas de hipótesis, la restricción a contrastar se llama hipótesis nula.
Ejemplo:
\[
H_0:\hat{\beta}_i = 0
\]
No basta con que \(\hat{\beta}_i\) sea diferente de cero; necesitamos un estadístico de contraste válido. En este capítulo usaremos los estadísticos \(t\) y \(F\).
Ejemplo motivador
En una función de producción Cobb–Douglas:
\[
Y = K^{\alpha}L^{\beta} \quad \text{o en logaritmos} \quad \ln(Y)=\alpha \ln(K)+\beta \ln(L)
\]
Queremos contrastar rendimientos constantes a escala:
\[
H_0: \alpha+\beta=1
\]
Esto es una prueba de hipótesis lineal sobre los parámetros.
📐 Errores distribuidos normalmente
Bajo el supuesto A6:
\[ \varepsilon|X \sim N(0,\sigma^{2}I) \]
Esto implica independencia entre \(\varepsilon\) y \(X\).
Sabemos que:
\[
\hat{\beta}-\beta=(X'X)^{-1}X'\varepsilon
\]
\[
\hat{\beta}=\beta+(X'X)^{-1}X'\varepsilon
\]
Proof. Implicación:
\[
\hat{\beta}|X \sim N(\beta,\sigma^{2}(X'X)^{-1})
\]
8.3 Contraste de hipótesis sobre un coeficiente {-}
Queremos contrastar:
\[ H_{0}:\beta_{k}=\bar{\beta}_{k}, \quad H_{1}:\beta_{k}\neq\bar{\beta}_{k} \]
Del resultado anterior:
\[ \hat{\beta_k}-\bar{\beta}_k|X \sim N\left(0,\sigma^{2}[(X'X)^{-1}]_{kk}\right) \]
Definimos el estadístico:
\[ z_k = \frac{\hat{\beta}_k - \bar{\beta}_k}{\sqrt{\sigma^{2}[(X'X)^{-1}]_{kk}}} \]
Si \(\sigma^2\) es desconocida, lo reemplazamos por \(\hat{\sigma}^2\), y obtenemos el estadístico t:
\[ t_k = \frac{\hat{\beta}_k-\bar{\beta}_k}{EE(\hat{\beta}_k)} \]
Theorem 8.1 Proposición: Bajo \(H_0\), \(t_k \sim t(n-k)\).
Proof. \[ t_k = z_k \cdot \frac{\sqrt{\sigma^2}}{\sqrt{\hat{\sigma}^2}} = \frac{z_k}{\sqrt{\hat{\sigma}^2/\sigma^2}} \] Como \(\hat{\sigma}^2\) está ligado a una \(\chi^2(n-k)\), entonces \(t_k\) tiene distribución \(t(n-k)\).
Ejercicio: Probar que \(q|X \sim \chi^2(n-k)\).
8.3.1 Regla de decisión para el estadístico t {-}
- Calcular \(t_k\).
- Comparar con el valor crítico \(t_{\alpha/2}(n-k)\).
- Regla: \[ |t_k| \ge t_{\alpha/2}(n-k) \quad \Rightarrow \quad \text{Rechazar } H_0 \]
8.4 Contraste de hipótesis lineales {-}
Hipótesis general:
\[
H_0: R\beta=r
\]
Ejemplos:
\(H_0: \beta_1+\beta_2=1\)
\[ [1 \;\; 1]\begin{bmatrix}\beta_1\\\beta_2\end{bmatrix}=1 \]\(H_0: \beta_1=\beta_2\)
\[ [1 \;\; -1]\begin{bmatrix}\beta_1\\\beta_2\end{bmatrix}=0 \]
8.4.1 El estadístico F {-}
Theorem 8.2 Proposición: Bajo \(H_0: R\beta=r\), \[ F = \frac{(R\hat{\beta}-r)'[R(X'X)^{-1}R']^{-1}(R\hat{\beta}-r)/\#r}{\hat{\sigma}^2} \sim F(\#r,n-k) \]
Proof. El numerador es una \(\chi^2(\#r)\) y el denominador una \(\chi^2(n-k)\).
Por definición, el cociente tiene distribución \(F(\#r,n-k)\).
8.4.2 Regla de decisión con F {-}
- Rechazar \(H_0\) si \(F \geq F_\alpha(\#r,n-k)\).
- No rechazar en caso contrario.
8.5 Relación t vs F {-}
Si \(\#r=1\):
\[
F(1,n-k)=t(n-k)^2
\]
8.5.1 📑 Demostración del estadístico \(t\) {-}
Proof. Partimos de que bajo normalidad:
\[ \hat{\beta}_k \;|\;X \sim N\!\Big(\beta_k,\;\sigma^2[(X'X)^{-1}]_{kk}\Big). \]
Bajo la hipótesis nula \(H_0:\beta_k=\bar{\beta}_k\), el numerador
\[ \hat{\beta}_k-\bar{\beta}_k \]
es una normal centrada con varianza \(\sigma^2[(X'X)^{-1}]_{kk}\). Estandarizando,
\[ z_k \equiv \frac{\hat{\beta}_k-\bar{\beta}_k}{\sqrt{\sigma^2[(X'X)^{-1}]_{kk}}} \sim N(0,1). \]
Por otra parte, el estimador de la varianza es
\[ \hat\sigma^2 = \frac{e'e}{n-K}=\frac{y'M_X y}{n-K}, \]
y bajo normalidad
\[ \frac{(n-K)\hat\sigma^2}{\sigma^2}=\frac{y'M_X y}{\sigma^2} \sim \chi^2(n-K). \]
El resultado clave es el teorema de Cochran: como \(P_X y\) y \(M_X y\) son proyecciones ortogonales de un vector normal, son independientes. Por lo tanto,
- \(z_k \sim N(0,1)\),
- \((n-K)\hat\sigma^2/\sigma^2 \sim \chi^2(n-K)\),
- \(z_k \perp \hat\sigma^2\).
Así,
\[ t_k = \frac{z_k}{\sqrt{\hat\sigma^2/\sigma^2}} = \frac{z_k}{\sqrt{U/(n-K)}},\qquad U\sim\chi^2(n-K), \]
y por definición, \(t_k \sim t(n-K)\).
8.5.2 📑 Demostración del estadístico \(F\) {-}
Proof. Sea la hipótesis lineal
\[ H_0:R\beta=r,\quad R\in\mathbb{R}^{\#r\times K},\;\mathrm{rango}(R)=\#r. \]
Bajo normalidad:
\[ R\hat\beta - r \;\big|\;H_0 \sim N\!\big(0,\;\sigma^2 R(X'X)^{-1}R'\big). \]
Definimos la forma cuadrática estandarizada:
\[ W=(R\hat\beta-r)'\,\big[\sigma^2 R(X'X)^{-1}R'\big]^{-1}(R\hat\beta-r). \]
Como es la forma cuadrática de un normal centrado en dimensión \(\#r\):
\[ W \sim \chi^2(\#r). \]
Del mismo modo, sabemos que
\[ U=\frac{(n-K)\hat\sigma^2}{\sigma^2}\sim \chi^2(n-K). \]
Por el teorema de Cochran, \(W\) (que depende de la parte proyectada \(P_X y\)) es independiente de \(U\) (que depende de \(M_X y\)).
Por tanto,
\[ F = \frac{W/\#r}{U/(n-K)} \;\sim\; F(\#r,\;n-K). \]
8.6 💻 Aplicación en Stata {-}
* Análisis descriptivo
use http://www.ats.ucla.edu/stat/stata/dae/crime, clear
summarize crime poverty single
twoway (scatter crime single) (lfit crime single)
* Regresión MCO
reg crime poverty single
* Prueba t
test poverty
* Prueba F (significancia conjunta)
test poverty single
* Uso de Mata
gen cons=1
mata:
st_view(Y=., ., "crime")
st_view(X=., ., ("cons","poverty","single"))
n=rows(X); k=cols(X)
b=invsym(X'X)*X'Y
s2=(Y-X*b)'(Y-X*b)/(n-k)
se=sqrt(diagonal(s2*invsym(X'X)))
t=b:/se
end📘 Preguntas de repaso
- ¿Por qué el supuesto A6 (normalidad) es esencial para obtener la distribución exacta de los estadísticos \(t\) y \(F\)?
- Demuestre algebraicamente que \[F(1,n-k) = t^2\].
- Interprete el intervalo de confianza del 95% para \(\beta_k\).
- ¿Qué significa un p-value de 0.07 en una prueba con \(\alpha=0.05\)?
- En Stata, ¿cómo verificaría la hipótesis \(\beta_1 = \beta_2\)?
- Explique en qué difiere el contraste F global de un contraste individual con \(t\).