14 Parcial 1 · 2026-1
Pontificia Universidad Javeriana · Departamento de Economía Profesora: Ana María Díaz · Semestre: 2026-1 Puntaje máximo: 5.0 pts + 0.2 bono
Cómo usar este capítulo Las preguntas están tal como aparecieron en el examen. Haz clic en 🔑 Ver solución para revelar la respuesta y su explicación. Te recomendamos responder primero y consultar la solución después.
14.1 Parte I: Selección Múltiple {-}
20 preguntas · 2 puntos en total
La escala de calificación asigna 2.00 pts con 17 correctas, hasta 1.06 pts con 9 correctas; por debajo de 9, proporcional.
P1. En el modelo \(Y = X\beta + \varepsilon\), donde \(X\) es de dimensión \(n \times k\), el estimador de Mínimos Cuadrados Ordinarios (MCO) es:
- \(\hat{\beta} = X'Y\)
- \(\hat{\beta} = (X'X)\,X'Y\)
- \(\hat{\beta} = (X'X)^{-1}X'Y\)
- \(\hat{\beta} = (X'Y)^{-1}X'X\)
🔑 Ver solución
Respuesta: C. Resultado directo de minimizar \(\|Y-X\beta\|^2\): las condiciones de primer orden \(X'(Y-X\hat{\beta})=0\) implican \(\hat{\beta}=(X'X)^{-1}X'Y\).
P2. En MCO con intercepto, ¿cuál de las siguientes propiedades de los residuos \(\hat{u}\) se cumple siempre?
- \(\hat{u}_i > 0\) para toda observación \(i\)
- \(X'\hat{u} = \mathbf{0}\)
- \(\hat{u} = Y\) cuando \(R^2 = 0\)
- Los residuos tienen varianza constante por construcción
🔑 Ver solución
Respuesta: B. Las condiciones de primer orden del MCO son exactamente \(X'\hat{u}=0\): los residuos son ortogonales a cada columna de \(X\). Con intercepto, esto implica además \(\sum \hat{u}_i=0\).
P3. La matriz de proyección \(P = X(X'X)^{-1}X'\) satisface:
- \(P\) es antisimétrica
- \(P^2 = I_n\)
- \(\operatorname{tr}(P) = n\)
- \(P^2 = P\) (es idempotente)
🔑 Ver solución
Respuesta: D. \(P^2 = X(X'X)^{-1}\underbrace{X'X(X'X)^{-1}}_{I_k}X' = X(X'X)^{-1}X' = P\). También es simétrica (\(P'=P\)) y \(\operatorname{tr}(P) = k\), no \(n\).
P4. \(X\) es de dimensión \(n \times 4\) (intercepto y 3 regresores). La traza de \(P = X(X'X)^{-1}X'\) es:
- \(n - 4\)
- \(n\)
- \(4\)
- \(0\)
🔑 Ver solución
Respuesta: C. \(\operatorname{tr}(P) = \operatorname{tr}[(X'X)^{-1}X'X] = \operatorname{tr}(I_k) = k = 4\). Nota: \(\operatorname{tr}(M) = n-4\).
P5. Si \(R^2 = 0.72\) en un modelo de regresión lineal, esto significa que:
- El 72% de las observaciones son correctamente predichas
- Todos los coeficientes son estadísticamente significativos al 5%
- El modelo explica el 72% de la variación total en \(Y\)
- El error estándar de la regresión es \(0.28\)
🔑 Ver solución
Respuesta: C. \(R^2 = 1 - \text{SRC}/\text{STC}\): fracción de la variación total de \(Y\) explicada por el modelo. No mide predicciones correctas ni significancia estadística.
P6. Si se incluye en el modelo una variable cuyo verdadero coeficiente es cero (\(\beta_3 = 0\)):
- Los estimadores de los demás coeficientes se sesgan
- El \(R^2\) disminuye necesariamente
- Los estimadores dejan de ser consistentes
- El MCO sigue siendo insesgado, pero la varianza de los estimadores puede aumentar
🔑 Ver solución
Respuesta: D. Incluir una variable irrelevante no introduce sesgo (S2 sigue válido) pero puede inflar la varianza de \(\hat{\beta}\) si la variable está correlacionada con las demás regresoras. El \(R^2\) nunca baja al agregar variables.
P7. El Teorema de Frisch–Waugh–Lovell establece que \(\hat{\beta}_1\) en el modelo \(Y = X_1\beta_1 + X_2\beta_2 + \varepsilon\) es idéntico al obtenido al:
- Regresar \(Y\) sobre \(X_1\) solamente
- Regresar \(M_1 Y\) sobre \(X_2\)
- Regresar \(X_2\) sobre \(X_1\) y luego \(Y\) sobre los residuos
- Regresar \(M_2 Y\) sobre \(M_2 X_1\) (donde \(M_2 = I - P_2\), \(P_2 = X_2(X_2'X_2)^{-1}X_2'\))
🔑 Ver solución
Respuesta: D. El FWL establece que \(\hat{\beta}_1 = ((\tilde{X}_1)'\tilde{X}_1)^{-1}(\tilde{X}_1)'\tilde{Y}\) con \(\tilde{X}_1 = M_2 X_1\) y \(\tilde{Y} = M_2 Y\): se “limpia” el efecto de \(X_2\) tanto en \(Y\) como en \(X_1\), y luego se regresa.
P8. El Teorema de Gauss–Markov establece que, bajo los supuestos clásicos S1–S5, el estimador MCO es:
- El estimador con menor varianza entre todos los estimadores posibles
- El estimador lineal insesgado con menor varianza (MELI / BLUE)
- El estimador de máxima verosimilitud
- El único estimador insesgado que existe
🔑 Ver solución
Respuesta: B. “Mejor Estimador Lineal Insesgado” (MELI) o BLUE. La restricción a la clase lineal e insesgada es esencial; fuera de ella puede haber estimadores con menor varianza (p.ej. estimadores sesgados como ridge).
P9. En el modelo \(Y_i = \beta_0 + \beta_1 D_i + \varepsilon_i\), donde \(D_i = 1\) si el estudiante es mujer, se estima \(\hat{\beta}_1 = 0.4\). La interpretación correcta es:
- El 40% de las mujeres obtienen mejor calificación
- Las mujeres obtienen 40 veces más que los hombres
- El modelo explica el 40% de la variación en \(Y\)
- En promedio, las mujeres obtienen una calificación 0.4 puntos mayor que los hombres, manteniendo lo demás constante
🔑 Ver solución
Respuesta: D. Con una sola binaria, \(\hat{\beta}_1 = \bar{Y}_{\text{mujer}} - \bar{Y}_{\text{hombre}}\). El coeficiente mide la diferencia de medias en unidades de \(Y\).
P10. Bajo los supuestos S1 (linealidad en parámetros) y S2 (exogeneidad estricta \(E[\varepsilon\mid X]=0\)), el estimador MCO:
- Es sesgado en muestras pequeñas
- Es inconsistente
- Es sesgado en muestras grandes
- Es insesgado: \(E[\hat{\beta}\mid X] = \beta\)
🔑 Ver solución
Respuesta: D. \(E[\hat{\beta}\mid X]=E[\beta+(X'X)^{-1}X'\varepsilon\mid X]=\beta+(X'X)^{-1}X'E[\varepsilon\mid X]=\beta\). El insesgamiento vale para cualquier \(n\).
P11. Bajo los supuestos clásicos (incluyendo S4: \(\operatorname{Var}(\varepsilon\mid X) = \sigma^2 I_n\)), la matriz de varianza-covarianza del estimador MCO es:
- \(\sigma(X'X)\)
- \(\sigma^2 X'X\)
- \(\sigma^2(X'X)X\)
- \(\sigma^2(X'X)^{-1}\)
🔑 Ver solución
Respuesta: D. \(\operatorname{Var}(\hat{\beta}\mid X) = (X'X)^{-1}X'\sigma^2 I X(X'X)^{-1} = \sigma^2(X'X)^{-1}\).
P12. El modelo verdadero es \(Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \varepsilon\), con \(\beta_2 > 0\) y \(\operatorname{Cov}(X_1, X_2) < 0\). Si se estima la regresión simple de \(Y\) sobre \(X_1\) (omitiendo \(X_2\)), el estimador MCO de \(\beta_1\):
- Es insesgado
- Está sesgado hacia arriba
- Está sesgado hacia abajo
- Es inconsistente solo en muestras pequeñas
🔑 Ver solución
Respuesta: C. Sesgo por variable omitida: \(\tilde{\beta}_1 - \beta_1 = \beta_2 \cdot \operatorname{Cov}(X_1,X_2)/\operatorname{Var}(X_1)\). Como \(\beta_2>0\) y \(\operatorname{Cov}(X_1,X_2)<0\), el producto es negativo → subestima \(\beta_1\).
P13. Dado que \(X'X = \begin{pmatrix} 4 & 0 \\ 0 & 9 \end{pmatrix}\) y \(X'Y = \begin{pmatrix} 8 \\ 27 \end{pmatrix}\), el estimador MCO \(\hat{\beta} = (\hat{\beta}_0,\,\hat{\beta}_1)'\) es:
- \((32,\;243)'\)
- \((0.5,\;0.33)'\)
- \((2,\;3)'\)
- \((4,\;9)'\)
🔑 Ver solución
Respuesta: C. \((X'X)^{-1}=\operatorname{diag}(1/4,\,1/9)\), por lo que \(\hat{\beta}_0=8/4=2\) y \(\hat{\beta}_1=27/9=3\).
P14. Un investigador crea dummies \(D_1\), \(D_2\), \(D_3\) para tres categorías mutuamente excluyentes (bajo, medio, alto) y estima \(Y = \beta_0 + \beta_1 D_1 + \beta_2 D_2 + \beta_3 D_3 + \varepsilon\). ¿Cuál es el problema?
- El \(R^2\) siempre será igual a cero
- Los coeficientes no son interpretables
- El modelo es no lineal
- Colinealidad perfecta: \(D_1 + D_2 + D_3 = 1\) coincide con el intercepto, por lo que \(X'X\) no es invertible
🔑 Ver solución
Respuesta: D. La columna de intercepto es combinación lineal perfecta de las tres dummies, por lo que \(\operatorname{rank}(X)<k\) y \((X'X)^{-1}\) no existe. Solución: omitir una dummy (categoría de referencia).
P15. Defina \(M = I_n - P\), donde \(P = X(X'X)^{-1}X'\). La transformación \(MY\) produce:
- Los valores ajustados: \(\hat{Y} = PY\)
- La media de \(Y\)
- Los coeficientes estimados \(\hat{\beta}\)
- Los residuos de la regresión: \(\hat{u} = MY\)
🔑 Ver solución
Respuesta: D. \(\hat{u} = Y - \hat{Y} = Y - PY = (I-P)Y = MY\). \(M\) proyecta \(Y\) sobre el complemento ortogonal del espacio columna de \(X\).
P16. Si \(\operatorname{Var}(\varepsilon_i\mid X) = \sigma_i^2\) (heterocedasticidad), el estimador MCO:
- Deja de ser insesgado
- Deja de ser consistente
- Sigue siendo insesgado, pero deja de ser MELI y los errores estándar habituales son incorrectos
- No puede calcularse
🔑 Ver solución
Respuesta: C. El insesgamiento requiere solo S1–S2; la heterocedasticidad viola S4 pero no S2. \(\hat{\beta}\) sigue siendo insesgado y consistente, pero \(\operatorname{Var}(\hat{\beta}\mid X)\neq\sigma^2(X'X)^{-1}\): se necesitan errores HC (robustos).
P17. En el modelo \(\ln(Y_i) = \beta_0 + \beta_1\ln(X_i) + \varepsilon_i\), con \(\hat{\beta}_1 = 0.4\). La interpretación correcta es:
- Un aumento de 1 unidad en \(X\) aumenta \(Y\) en \(0.4\) unidades
- Un aumento de 1 unidad en \(X\) aumenta \(Y\) en un 40%
- Un aumento de 1% en \(X\) aumenta \(Y\) en \(0.4\) unidades
- Un aumento de 1% en \(X\) está asociado con un aumento de \(0.4\%\) en \(Y\)
🔑 Ver solución
Respuesta: D. Modelo log–log: \(\hat{\beta}_1\) es la elasticidad de \(Y\) respecto a \(X\). \(\partial\ln Y/\partial\ln X = \beta_1\) → “% cambio en \(Y\) / % cambio en \(X\) = \(\beta_1\)”.
P18. ¿Cuál de las siguientes afirmaciones sobre el \(R^2\) ajustado (\(\bar{R}^2\)) es correcta?
- Siempre es mayor o igual que el \(R^2\) ordinario
- Nunca puede ser negativo
- Aumenta automáticamente al añadir cualquier regresor al modelo
- Puede disminuir al añadir un regresor si su contribución explicativa no compensa el grado de libertad perdido
🔑 Ver solución
Respuesta: D. \(\bar{R}^2 = 1 - \frac{\text{SRC}/(n-k)}{\text{STC}/(n-1)}\). Al agregar un regresor irrelevante, SRC baja poco pero \(n-k\) también baja, por lo que el cociente SRC/\((n-k)\) puede subir, reduciendo \(\bar{R}^2\). Nota: \(\bar{R}^2 \leq R^2\) siempre y puede ser negativo.
P19. Cuando existe multicolinealidad imperfecta entre los regresores, el estimador MCO:
- Es sesgado e inconsistente
- No puede calcularse porque \(X'X\) es singular
- Es sesgado pero consistente
- Sigue siendo insesgado y consistente, pero la varianza de los estimadores aumenta y los errores estándar son imprecisos
🔑 Ver solución
Respuesta: D. La multicolinealidad imperfecta no viola el supuesto de rango completo (S3): \(X'X\) sigue siendo invertible, así que MCO existe, es insesgado y consistente. El problema es práctico: la alta correlación infla \(\operatorname{Var}(\hat{\beta})\) (VIF alto), produciendo intervalos amplios y estadísticos \(t\) pequeños.
P20. Si los errores \(\varepsilon_i\) no son normales pero la muestra es grande (\(n \to \infty\)), las pruebas de hipótesis basadas en los estadísticos \(t\) y \(F\):
- Son completamente inválidas
- Requieren conocer la distribución exacta de \(\varepsilon\)
- Solo son válidas si los errores son simétricamente distribuidos
- Son aproximadamente válidas gracias al Teorema Central del Límite
🔑 Ver solución
Respuesta: D. Por el TCL, \(\sqrt{n}(\hat{\beta}-\beta)\xrightarrow{d}\mathcal{N}(0,\sigma^2 Q_{XX}^{-1})\) aunque los \(\varepsilon_i\) no sean normales. Las pruebas \(t\) y \(F\) son asintóticamente válidas en muestra grande, aunque no exactamente en muestras pequeñas sin S6.
Parte II: Preguntas Abiertas
Responda la pregunta obligatoria y una de las dos opcionales.
14.1.1 Obligatoria — FWL con observación atípica (1.5 pts) {-}
Un investigador quiere estimar el efecto de las horas de estudio semanales (\(X\)) sobre la nota del parcial (\(Y\)) en un curso de economía. Dispone de datos de \(n = 5\) estudiantes. La observación 5 corresponde a un estudiante que entró al curso tarde y se comporta como un caso atípico, por lo que se define la variable ficticia:
\[Z_i = \begin{cases} 1 & \text{si } i = 5 \\ 0 & \text{en otro caso} \end{cases}\]
| Obs. (\(i\)) | Horas (\(X_i\)) | Nota (\(Y_i\)) | Atípico (\(Z_i\)) |
|---|---|---|---|
| 1 | 2 | 2.0 | 0 |
| 2 | 4 | 3.0 | 0 |
| 3 | 6 | 4.0 | 0 |
| 4 | 8 | 5.0 | 0 |
| 5 | 1 | 4.8 | 1 |
(1) — 0.25 pts. Plantee el modelo de regresión múltiple \(Y_i = \beta_0 + \beta_1 X_i + \beta_2 Z_i + u_i\). ¿Qué mide \(\beta_1\) en este modelo? Argumente brevemente por qué incluir \(Z\) es importante.
(2) — 0.25 pts. Suponga que se estima la regresión simple \(Y_i = \alpha_0 + \alpha_1 X_i + v_i\) (sin controlar \(Z\)). ¿En qué dirección esperaría que el atípico sesgue \(\hat{\alpha}_1\) respecto a \(\hat{\beta}_1\)? Justifique intuitivamente.
(3) — 0.75 pts. Aplique el Teorema de Frisch–Waugh–Lovell con \(\mathbf{X}_2 = [\mathbf{1},\, Z]\). Ayuda: al regresar cualquier variable \(v\) sobre \(\mathbf{X}_2\), los valores ajustados son \(\bar{v}_{1\text{–}4}\) para las obs. 1–4 y \(v_5\) para la obs. 5.
- (a) Obtenga \(\widetilde{X} = M_{\mathbf{X}_2} X\).
- (b) Obtenga \(\widetilde{Y} = M_{\mathbf{X}_2} Y\).
- (c) Calcule \(\hat{\beta}_1^{FWL} = \dfrac{\sum_i \widetilde{X}_i \widetilde{Y}_i}{\sum_i \widetilde{X}_i^2}\).
(4) — 0.25 pts. Muestre que \(\hat{\beta}_1^{FWL}\) coincide con el estimador MCO de la regresión simple de \(Y\) sobre \(X\) usando únicamente las observaciones 1–4. Interprete el resultado.
🔑 Ver solución completa
Solución (1) — Modelo e interpretación de \(\beta_1\).
\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 Z_i + u_i, \qquad E[u_i\mid X_i, Z_i]=0.\]
\(\beta_1\) mide el efecto de una hora adicional de estudio sobre la nota, manteniendo constante la pertenencia al grupo atípico. Incluir \(Z\) es importante porque la observación 5 rompe el patrón lineal (nota alta con pocas horas); omitirla sesga \(\hat{\alpha}_1\).
Solución (2) — Dirección del sesgo.
La obs. 5 tiene \(X_5=1\) (pocas horas) pero \(Y_5=4.8\) (nota alta). Esto introduce una observación que tira la recta hacia la derecha y hacia abajo: el intercepto sube y la pendiente baja. Sin controlar \(Z\), esperamos \(\hat{\alpha}_1 < \hat{\beta}_1\): el atípico sesga \(\hat{\alpha}_1\) hacia abajo (subestima el efecto de estudiar).
Solución (3) — FWL.
Resultado clave: Los residuos de regresar \(v\) sobre \(\mathbf{X}_2\) son \(v_i - \bar{v}_{1\text{–}4}\) para \(i=1,\ldots,4\) y \(0\) para \(i=5\).
(a) \(\bar{X}_{1\text{–}4} = (2+4+6+8)/4 = 5\)
\[\widetilde{X} = M_{\mathbf{X}_2}X = (-3,\; -1,\; 1,\; 3,\; 0)'\]
(b) \(\bar{Y}_{1\text{–}4} = (2+3+4+5)/4 = 3.5\)
\[\widetilde{Y} = M_{\mathbf{X}_2}Y = (-1.5,\; -0.5,\; 0.5,\; 1.5,\; 0)'\]
(c)
\[\sum_{i=1}^{5}\widetilde{X}_i\widetilde{Y}_i = (-3)(-1.5)+(-1)(-0.5)+(1)(0.5)+(3)(1.5)+0 = 4.5+0.5+0.5+4.5 = 10\]
\[\sum_{i=1}^{5}\widetilde{X}_i^2 = 9+1+1+9+0 = 20\]
\[\hat{\beta}_1^{FWL} = \frac{10}{20} = \boxed{0.5}\]
Solución (4) — Equivalencia con la regresión en obs. 1–4.
Usando solo obs. 1–4 (\(\bar{X}=5\), \(\bar{Y}=3.5\)):
\[\hat{\beta}_1 = \frac{\sum_{i=1}^{4}(X_i-5)(Y_i-3.5)}{\sum_{i=1}^{4}(X_i-5)^2} = \frac{10}{20} = 0.5 \quad \checkmark \qquad \hat{\beta}_0 = 3.5 - 0.5\times 5 = 1.0\]
Ambos métodos dan exactamente \(\hat{\beta}_1=0.5\). Interpretación: “Controlar por el atípico” equivale algebraicamente a estimar la regresión solo con las observaciones normales. \(M_{\mathbf{X}_2}\) elimina la contribución de la observación 5 tanto de \(X\) como de \(Y\) antes de calcular la pendiente. Cada hora adicional de estudio aumenta la nota en \(0.5\) puntos entre los estudiantes no atípicos.
Opcional 1 — Transformaciones y formas funcionales (1.5 pts)
Considere el modelo de regresión lineal simple \(y_i = \beta_0 + \beta_1 x_i + \varepsilon_i\), donde \(y\) es el ingreso mensual (miles de pesos) y \(x\) son los años de educación formal.
(1) — 0.4 pts. Transformación multiplicativa (notación matricial). Para \(n = 3\) estudiantes, con \(x_i\) centrado en la media muestral:
\[X = \begin{pmatrix} 1 & -1 \\ 1 & 0 \\ 1 & 1 \end{pmatrix}, \qquad Y = \begin{pmatrix} 1 \\ 3 \\ 5 \end{pmatrix}.\]
Un investigador reescala: \(\tilde{x}_i = 2\,x_i\) (convierte años en semestres relativos a la media).
- (a) Escriba la matriz \(\tilde{X}\) que resulta de reemplazar la columna de \(x\) por \(\tilde{x} = 2x\).
- (b) Calcule \(\hat{\beta} = (X'X)^{-1}X'Y\). (Ayuda: como \(x\) está centrado, \(X'X\) es diagonal.)
- (c) Calcule \(\hat{\beta}^{*} = (\tilde{X}'\tilde{X})^{-1}\tilde{X}'Y\) y verifique que \(\hat{\beta}^{*}_1 = \hat{\beta}_1 / 2\).
(2) — 0.4 pts. Formas funcionales. Interprete \(\beta_1\) usando \(\hat{\beta}_1 = 0.08\) en cada caso:
- (a) Lineal–lineal: \(y = \beta_0 + \beta_1 x + \varepsilon\)
- (b) Log–lineal: \(\ln(y) = \beta_0 + \beta_1 x + \varepsilon\)
- (c) Log–log: \(\ln(y) = \beta_0 + \beta_1 \ln(x) + \varepsilon\)
(3) — 0.4 pts. Estandarización. Defina \(\tilde{y}_i = (y_i - \bar{y})/s_y\) y \(\tilde{x}_i = (x_i - \bar{x})/s_x\). Estime \(\tilde{y} = \tilde{\beta}_0 + \tilde{\beta}_1 \tilde{x} + u\).
- (a) Demuestre que \(\hat{\tilde{\beta}}_0 = 0\).
- (b) ¿Qué representa \(\hat{\tilde{\beta}}_1\)?
(4) — 0.3 pts. ¿Por qué el estadístico \(t\) de \(\hat{\beta}_1\) no cambia cuando se multiplica \(x_i\) por una constante \(c > 0\)? Use la fórmula de la varianza del estimador para justificar.
🔑 Ver solución completa
Solución (1) — Transformación multiplicativa (\(c=2\)).
(a) Se multiplica la segunda columna de \(X\) por \(c=2\):
\[\tilde{X} = \begin{pmatrix} 1 & -2 \\ 1 & 0 \\ 1 & 2 \end{pmatrix}.\]
(b) Con datos originales (\(x\) centrado → \(X'X\) diagonal):
\[X'X = \begin{pmatrix}3 & 0 \\ 0 & 2\end{pmatrix}, \quad (X'X)^{-1} = \begin{pmatrix}1/3 & 0 \\ 0 & 1/2\end{pmatrix}, \quad X'Y = \begin{pmatrix}9 \\ 4\end{pmatrix}.\]
\[\hat{\beta} = (X'X)^{-1}X'Y = \begin{pmatrix}9/3 \\ 4/2\end{pmatrix} = \begin{pmatrix}3 \\ 2\end{pmatrix}.\]
(c) Con la variable reescalada:
\[\tilde{X}'\tilde{X} = \begin{pmatrix}3 & 0 \\ 0 & 8\end{pmatrix}, \quad (\tilde{X}'\tilde{X})^{-1} = \begin{pmatrix}1/3 & 0 \\ 0 & 1/8\end{pmatrix}, \quad \tilde{X}'Y = \begin{pmatrix}9 \\ 8\end{pmatrix}.\]
\[\hat{\beta}^* = \begin{pmatrix}9/3 \\ 8/8\end{pmatrix} = \begin{pmatrix}3 \\ 1\end{pmatrix}.\]
\(\hat{\beta}^*_1 = 1 = 2/2 = \hat{\beta}_1/2\) ✓. El intercepto \(\hat{\beta}_0 = 3\) no cambia.
Solución (2) — Formas funcionales con \(\hat{\beta}_1 = 0.08\).
(a) Lineal–lineal: Un año más de educación aumenta el ingreso en \(0.08\) miles de pesos (= 80 pesos), ceteris paribus.
(b) Log–lineal: Un año más de educación está asociado con un aumento aproximado del \(8\%\) en el ingreso. El retorno porcentual marginal a la educación es constante. (Error frecuente: llamarlo elasticidad.)
(c) Log–log: Un aumento del \(1\%\) en los años de educación está asociado con un aumento del \(0.08\%\) en el ingreso. \(\hat{\beta}_1\) es la elasticidad del ingreso respecto a la educación.
Solución (3) — Estandarización.
(a) El estimador del intercepto usa la condición de que la recta MCO pasa por \((\bar{\tilde{x}}, \bar{\tilde{y}})\):
\[\hat{\tilde{\beta}}_0 = \bar{\tilde{y}} - \hat{\tilde{\beta}}_1\bar{\tilde{x}} = 0 - \hat{\tilde{\beta}}_1 \cdot 0 = 0.\]
Por construcción, las variables estandarizadas tienen media cero.
(b)
\[\hat{\tilde{\beta}}_1 = \frac{\operatorname{Cov}(\tilde{x},\tilde{y})}{\operatorname{Var}(\tilde{x})} = \operatorname{Cov}\!\Bigl(\tfrac{x-\bar{x}}{s_x},\,\tfrac{y-\bar{y}}{s_y}\Bigr) = r_{xy}.\]
\(\hat{\tilde{\beta}}_1\) es el coeficiente de correlación entre \(x\) e \(y\): un aumento de 1 desviación estándar en \(x\) está asociado con un cambio de \(r_{xy}\) desviaciones estándar en \(y\).
Solución (4) — Invarianza del estadístico \(t\).
\[t^{\tilde{x}} = \frac{\hat{\beta}_1^{\tilde{x}}}{\operatorname{se}(\hat{\beta}_1^{\tilde{x}})} = \frac{\hat{\beta}_1/c}{\operatorname{se}(\hat{\beta}_1)/c} = \frac{\hat{\beta}_1}{\operatorname{se}(\hat{\beta}_1)} = t^{x}.\]
Multiplicar \(x\) por \(c\) escala el estimador en \(1/c\) y su error estándar también en \(1/c\), por lo que el cociente (y la inferencia) es idéntico.
Opcional 2 — Insesgamiento y Gauss–Markov (1.5 pts)
Considere el modelo de regresión lineal múltiple \(Y = X\beta + \varepsilon\), con \(X\) de dimensión \(n \times k\) y rango completo. Asuma los supuestos clásicos S1–S5.
(1) — 0.5 pts. Insesgamiento.
- (a) A partir de \(\hat{\beta} = (X'X)^{-1}X'Y\), sustituya \(Y = X\beta + \varepsilon\) y demuestre que \(\hat{\beta} = \beta + (X'X)^{-1}X'\varepsilon\).
- (b) Use \(E[\varepsilon\mid X] = 0\) para demostrar que \(E[\hat{\beta}\mid X] = \beta\).
(2) — 0.5 pts. Varianza del estimador.
- (a) Escriba la fórmula de \(\operatorname{Var}(\hat{\beta}\mid X)\) bajo los supuestos clásicos. ¿Qué supuesto específico sobre \(\varepsilon\) se requiere?
- (b) En la regresión simple \(y_i = \beta_0 + \beta_1 x_i + \varepsilon_i\), con \(\hat{\sigma}^2 = 9\) y \(\sum_i (x_i - \bar{x})^2 = 100\), calcule \(\widehat{\operatorname{Var}}(\hat{\beta}_1)\).
(3) — 0.5 pts. Estimación de \(\sigma^2\) y Gauss–Markov.
- (a) ¿Por qué se divide por \((n-k)\) al estimar \(\hat{\sigma}^2 = \hat{u}'\hat{u}/(n-k)\)? ¿Qué pasaría si se dividiera por \(n\)?
- (b) ¿Qué supuesto adicional (S6) se necesita para que la distribución de \(\hat{\beta}\) sea exactamente normal en muestras finitas?
- (c) Si S6 no se cumple pero \(n\) es grande, ¿siguen siendo válidas las pruebas \(t\) y \(F\)? ¿Por qué?
🔑 Ver solución completa
Solución (1a) — Demostración.
\[\hat{\beta} = (X'X)^{-1}X'Y = (X'X)^{-1}X'(X\beta + \varepsilon) = \underbrace{(X'X)^{-1}(X'X)}_{I_k}\beta + (X'X)^{-1}X'\varepsilon = \beta + (X'X)^{-1}X'\varepsilon. \quad \checkmark\]
Solución (1b) — Insesgamiento.
\[E[\hat{\beta}\mid X] = E\bigl[\beta + (X'X)^{-1}X'\varepsilon \mid X\bigr] = \beta + (X'X)^{-1}X'\underbrace{E[\varepsilon\mid X]}_{=\,0} = \beta. \quad \checkmark\]
Se requiere S2 (\(E[\varepsilon\mid X]=0\)), que implica exogeneidad estricta.
Solución (2a) — Varianza.
\[\operatorname{Var}(\hat{\beta}\mid X) = \sigma^2(X'X)^{-1}.\]
Supuesto requerido: S4 — \(\operatorname{Var}(\varepsilon\mid X)=\sigma^2 I_n\) (homocedasticidad y no autocorrelación).
Solución (2b) — Cálculo numérico.
\[\widehat{\operatorname{Var}}(\hat{\beta}_1) = \frac{\hat{\sigma}^2}{\sum_i(x_i-\bar{x})^2} = \frac{9}{100} = 0.09.\]
Error estándar estimado: \(\widehat{\operatorname{se}}(\hat{\beta}_1) = \sqrt{0.09} = 0.3\).
Solución (3a) — División por \(n-k\).
Estimar \(\beta\) impone \(k\) restricciones sobre los residuos (\(X'\hat{u} = 0\)), consumiendo \(k\) grados de libertad. Dividir por \(n-k\) produce un estimador insesgado: \(E[\hat{\sigma}^2] = \sigma^2\). Si se divide por \(n\), el estimador es sesgado hacia abajo: \(E[\hat{\sigma}^2_n] = \frac{n-k}{n}\sigma^2 < \sigma^2\).
Solución (3b) — Supuesto S6.
\[\varepsilon\mid X \sim \mathcal{N}(0,\sigma^2 I_n).\]
Bajo S6, \(\hat{\beta}\mid X\sim\mathcal{N}(\beta,\sigma^2(X'X)^{-1})\) exactamente, y los estadísticos \(t\) y \(F\) tienen distribuciones exactas \(t_{n-k}\) y \(F_{r,n-k}\) en muestras finitas.
Solución (3c) — Sin S6 con \(n\) grande.
Por el Teorema Central del Límite, \(\hat{\beta}\) es asintóticamente normal aunque \(\varepsilon\) no lo sea. Las pruebas \(t\) y \(F\) son asintóticamente válidas (válidas en muestra grande), aunque no exactas en muestras pequeñas. En la práctica, con \(n\geq 50\)–\(100\) la aproximación suele ser muy buena.
Bono (0.2 pts)
Describa brevemente (5–7 líneas) un video relacionado con econometría o economía empírica que le haya llamado la atención durante el curso. Indique: (i) cuál era la pregunta de investigación, (ii) cómo cree que el autor identificó el efecto causal, y (iii) qué aprendió de él.
🔑 Criterio de evaluación
Respuesta libre. Se otorga el bono si el estudiante: (i) identifica correctamente la pregunta de investigación del video; (ii) menciona algún elemento de identificación causal (experimento, DiD, VI, RD, etc.); y (iii) muestra reflexión genuina sobre qué aprendió. Se recomienda 0.1 pts por los puntos (i)–(ii) y 0.1 pts por (iii).