Inferencia

8.2 Pruebas de hipótesis bajo el supuesto de normalidad {-}

Una vez hemos estimado los parámetros \(\hat{\beta}=(X'X)^{-1}X'y\),
y la varianza del estimador \(Var[\beta|X]=\hat{\sigma}^{2}(X'X)^{-1}\),
es necesario preguntarnos qué tan cercanos son los resultados de la regresión poblacional.

Para que los parámetros sean cercanos necesitamos como condición que los estimados \(\hat{\beta}\) sean estadísticamente distintos de cero.
En lenguaje de pruebas de hipótesis, la restricción a contrastar se llama hipótesis nula.

Ejemplo:
\[ H_0:\hat{\beta}_i = 0 \]

No basta con que \(\hat{\beta}_i\) sea diferente de cero; necesitamos un estadístico de contraste válido. En este capítulo usaremos los estadísticos \(t\) y \(F\).

Ejemplo motivador

En una función de producción Cobb–Douglas:
\[ Y = K^{\alpha}L^{\beta} \quad \text{o en logaritmos} \quad \ln(Y)=\alpha \ln(K)+\beta \ln(L) \]

Queremos contrastar rendimientos constantes a escala:
\[ H_0: \alpha+\beta=1 \]

Esto es una prueba de hipótesis lineal sobre los parámetros.

📐 Errores distribuidos normalmente

Bajo el supuesto A6:

\[ \varepsilon|X \sim N(0,\sigma^{2}I) \]

Esto implica independencia entre \(\varepsilon\) y \(X\).

Sabemos que:
\[ \hat{\beta}-\beta=(X'X)^{-1}X'\varepsilon \] \[ \hat{\beta}=\beta+(X'X)^{-1}X'\varepsilon \]

Proof. Implicación:
\[ \hat{\beta}|X \sim N(\beta,\sigma^{2}(X'X)^{-1}) \]

8.3 Contraste de hipótesis sobre un coeficiente {-}

Queremos contrastar:

\[ H_{0}:\beta_{k}=\bar{\beta}_{k}, \quad H_{1}:\beta_{k}\neq\bar{\beta}_{k} \]

Del resultado anterior:

\[ \hat{\beta_k}-\bar{\beta}_k|X \sim N\left(0,\sigma^{2}[(X'X)^{-1}]_{kk}\right) \]

Definimos el estadístico:

\[ z_k = \frac{\hat{\beta}_k - \bar{\beta}_k}{\sqrt{\sigma^{2}[(X'X)^{-1}]_{kk}}} \]

Si \(\sigma^2\) es desconocida, lo reemplazamos por \(\hat{\sigma}^2\), y obtenemos el estadístico t:

\[ t_k = \frac{\hat{\beta}_k-\bar{\beta}_k}{EE(\hat{\beta}_k)} \]

Theorem 8.1 Proposición: Bajo \(H_0\), \(t_k \sim t(n-k)\).

Proof. \[ t_k = z_k \cdot \frac{\sqrt{\sigma^2}}{\sqrt{\hat{\sigma}^2}} = \frac{z_k}{\sqrt{\hat{\sigma}^2/\sigma^2}} \] Como \(\hat{\sigma}^2\) está ligado a una \(\chi^2(n-k)\), entonces \(t_k\) tiene distribución \(t(n-k)\).

Ejercicio: Probar que \(q|X \sim \chi^2(n-k)\).

8.3.1 Regla de decisión para el estadístico t {-}

Calcular \(t_k\).
Comparar con el valor crítico \(t_{\alpha/2}(n-k)\).
Regla: \[ |t_k| \ge t_{\alpha/2}(n-k) \quad \Rightarrow \quad \text{Rechazar } H_0 \]

Intervalo de confianza

No rechazamos \(H_0\) si:

\[ \bar{\beta}_k \in \left[\hat{\beta}_k - EE(\hat{\beta}_k) t_{\alpha/2}, \hat{\beta}_k + EE(\hat{\beta}_k) t_{\alpha/2}\right] \]

El valor p (p-value)

Definimos:

\[ p = P(|t|>|t_k|) \]

Rechazar \(H_0\) si \(p \leq \alpha\).
No rechazar si \(p>\alpha\).

8.4 Contraste de hipótesis lineales {-}

Hipótesis general:
\[ H_0: R\beta=r \]

Ejemplos:

\(H_0: \beta_1+\beta_2=1\)
\[ [1 \;\; 1]\begin{bmatrix}\beta_1\\\beta_2\end{bmatrix}=1 \]
\(H_0: \beta_1=\beta_2\)
\[ [1 \;\; -1]\begin{bmatrix}\beta_1\\\beta_2\end{bmatrix}=0 \]

8.4.1 El estadístico F {-}

Theorem 8.2 Proposición: Bajo \(H_0: R\beta=r\), \[ F = \frac{(R\hat{\beta}-r)'[R(X'X)^{-1}R']^{-1}(R\hat{\beta}-r)/\#r}{\hat{\sigma}^2} \sim F(\#r,n-k) \]

Proof. El numerador es una \(\chi^2(\#r)\) y el denominador una \(\chi^2(n-k)\).
Por definición, el cociente tiene distribución \(F(\#r,n-k)\).

8.4.2 Regla de decisión con F {-}

Rechazar \(H_0\) si \(F \geq F_\alpha(\#r,n-k)\).
No rechazar en caso contrario.

8.4.3 Fórmula alternativa para F {-}

\[ F=\frac{(\hat{\epsilon}_r'\hat{\epsilon}_r - \hat{\epsilon}'\hat{\epsilon})/\#r}{\hat{\epsilon}'\hat{\epsilon}/(n-k)} \]

8.4.4 Contraste de significación global {-}

\[ H_0: \beta_2=\cdots=\beta_K=0 \]

El estadístico puede escribirse en función de \(R^2\):

\[ F = \frac{R^2/(K-1)}{(1-R^2)/(n-K)} \]

8.5 Relación t vs F {-}

Si \(\#r=1\):
\[ F(1,n-k)=t(n-k)^2 \]

8.5.1 📑 Demostración del estadístico \(t\) {-}

Proof. Partimos de que bajo normalidad:

\[ \hat{\beta}_k \;|\;X \sim N\!\Big(\beta_k,\;\sigma^2[(X'X)^{-1}]_{kk}\Big). \]

Bajo la hipótesis nula \(H_0:\beta_k=\bar{\beta}_k\), el numerador

\[ \hat{\beta}_k-\bar{\beta}_k \]

es una normal centrada con varianza \(\sigma^2[(X'X)^{-1}]_{kk}\). Estandarizando,

\[ z_k \equiv \frac{\hat{\beta}_k-\bar{\beta}_k}{\sqrt{\sigma^2[(X'X)^{-1}]_{kk}}} \sim N(0,1). \]

Por otra parte, el estimador de la varianza es

\[ \hat\sigma^2 = \frac{e'e}{n-K}=\frac{y'M_X y}{n-K}, \]

y bajo normalidad

\[ \frac{(n-K)\hat\sigma^2}{\sigma^2}=\frac{y'M_X y}{\sigma^2} \sim \chi^2(n-K). \]

El resultado clave es el teorema de Cochran: como \(P_X y\) y \(M_X y\) son proyecciones ortogonales de un vector normal, son independientes. Por lo tanto,

\(z_k \sim N(0,1)\),
\((n-K)\hat\sigma^2/\sigma^2 \sim \chi^2(n-K)\),
\(z_k \perp \hat\sigma^2\).

Así,

\[ t_k = \frac{z_k}{\sqrt{\hat\sigma^2/\sigma^2}} = \frac{z_k}{\sqrt{U/(n-K)}},\qquad U\sim\chi^2(n-K), \]

y por definición, \(t_k \sim t(n-K)\).

8.5.2 📑 Demostración del estadístico \(F\) {-}

Proof. Sea la hipótesis lineal

\[ H_0:R\beta=r,\quad R\in\mathbb{R}^{\#r\times K},\;\mathrm{rango}(R)=\#r. \]

Bajo normalidad:

\[ R\hat\beta - r \;\big|\;H_0 \sim N\!\big(0,\;\sigma^2 R(X'X)^{-1}R'\big). \]

Definimos la forma cuadrática estandarizada:

\[ W=(R\hat\beta-r)'\,\big[\sigma^2 R(X'X)^{-1}R'\big]^{-1}(R\hat\beta-r). \]

Como es la forma cuadrática de un normal centrado en dimensión \(\#r\):

\[ W \sim \chi^2(\#r). \]

Del mismo modo, sabemos que

\[ U=\frac{(n-K)\hat\sigma^2}{\sigma^2}\sim \chi^2(n-K). \]

Por el teorema de Cochran, \(W\) (que depende de la parte proyectada \(P_X y\)) es independiente de \(U\) (que depende de \(M_X y\)).

Por tanto,

\[ F = \frac{W/\#r}{U/(n-K)} \;\sim\; F(\#r,\;n-K). \]

8.6 💻 Aplicación en Stata {-}

* Análisis descriptivo
use http://www.ats.ucla.edu/stat/stata/dae/crime, clear
summarize crime poverty single
twoway (scatter crime single) (lfit crime single)

* Regresión MCO
reg crime poverty single

* Prueba t
test poverty

* Prueba F (significancia conjunta)
test poverty single

* Uso de Mata
gen cons=1
mata:
st_view(Y=., ., "crime")
st_view(X=., ., ("cons","poverty","single"))
n=rows(X); k=cols(X)
b=invsym(X'X)*X'Y
s2=(Y-X*b)'(Y-X*b)/(n-k)
se=sqrt(diagonal(s2*invsym(X'X)))
t=b:/se
end

📘 Preguntas de repaso

¿Por qué el supuesto A6 (normalidad) es esencial para obtener la distribución exacta de los estadísticos \(t\) y \(F\)?
Demuestre algebraicamente que \[F(1,n-k) = t^2\].
Interprete el intervalo de confianza del 95% para \(\beta_k\).
¿Qué significa un p-value de 0.07 en una prueba con \(\alpha=0.05\)?
En Stata, ¿cómo verificaría la hipótesis \(\beta_1 = \beta_2\)?
Explique en qué difiere el contraste F global de un contraste individual con \(t\).