11 Endogeneidad
Violación de la exogeneidad estricta
El supuesto fundamental de MCO es que los regresores son exógenos: \(E(\varepsilon_i \mid X) = 0\). Cuando este supuesto se viola, existe al menos una variable explicativa \(X_j\) correlacionada con el error:
\[Cov(\varepsilon_i, X_j) \neq 0\]
Esta variable se llama variable endógena del modelo, y tiene consecuencias graves: el estimador MCO es sesgado e inconsistente.
Demostración. Si \(E(\varepsilon_i \mid X) \neq 0\):
La esperanza no condicionada del error es distinta de cero: \(E(E(\varepsilon_i \mid X)) = E(\varepsilon_i) \neq 0\)
Si \(E(\varepsilon_i \mid X) \neq 0\) entonces \(E(\varepsilon_i X) \neq 0\): \[E(\varepsilon_i X) = E[E(\varepsilon_i X \mid X)] = E[X E(\varepsilon_i \mid X)] \neq 0\]
Por lo tanto \(Cov(\varepsilon_i, X) \neq 0\): \[Cov(\varepsilon_i, X) = E(X\varepsilon_i) - E(X)E(\varepsilon_i) \neq 0\]
Causas de la endogeneidad
Hay tres fuentes principales de endogeneidad:
- Variables Omitidas Relevantes
- Errores de Medición
- Simultaneidad
1. Variables omitidas
Supongamos que el modelo correcto es:
\[y = X_r \beta_r + X_s \beta_s + \varepsilon\]
pero estimamos incorrectamente el modelo restringido:
\[y = X_r \beta_r + u\]
Las variables omitidas forman parte del error: \(u_i = X_s \beta_s + \varepsilon\), y su esperanza no es cero: \(E(u) = X_s \beta_s\).
Consecuencias:
El estimador MCO estará sesgado: \[Sesgo(\hat{\beta}_r) = (X_r' X_r)^{-1} X_r' X_s \beta_s\]
Presenta menor varianza que el modelo correcto: \[Var(\hat{\beta}_r) = \sigma_\varepsilon^2 (X_r' X_r)^{-1}\]
El problema surge cuando queremos controlar por variables adicionales pero, por falta de datos, no podemos incluirlas. La variable \(X_j\) es endógena si está correlacionada con la variable omitida — algo que ocurre especialmente en problemas de auto-selección: los individuos escogen el valor de \(x_j\) en función de factores no observables.
2. Error de medición
Muchas veces no observamos el valor verdadero de una variable sino una medida imperfecta. Causas comunes:
- Errores en la recolección de datos
- Errores en las encuestas (¿cuántos meses lleva trabajando en este trabajo?)
- Problemas de memoria (¿cuánto ganó el año pasado?)
- Preguntas ambiguas o respuestas falsas
Error en la variable dependiente
Si \(y^* = X\beta + \varepsilon\) es el modelo correcto pero observamos \(y^* = y + w\) (con \(w \sim iid(0, \sigma_w^2)\), \(Cov(w,\varepsilon)=0\), \(Cov(w,X)=0\)), entonces:
\[y = X\beta + \underbrace{(\varepsilon - w)}_{\mu}\]
El nuevo error \(\mu = \varepsilon - w\) tiene:
- \(E[\mu] = 0\) — no hay sesgo
- \(Var[\mu] = \sigma_\varepsilon^2 + \sigma_w^2\) — inflación de varianza
Consecuencia: MCO sigue siendo insesgado y consistente, pero pierde eficiencia.
Error en las variables independientes
Si el modelo correcto usa \(X^*\) pero observamos \(X^* = X + w\):
\[y = (X + w)\beta + \varepsilon = X\beta + \underbrace{w\beta + \varepsilon}_{\mu}\]
El error compuesto \(\mu = w\beta + \varepsilon\) tiene:
- \(E[\mu] = E[w\beta + \varepsilon] = (X^* - X)\beta = w\beta \neq 0\)
- \(Var[\mu] = \beta^2 \sigma_w^2 + \sigma_\varepsilon^2\)
El estimador MCO queda:
\[\hat{\beta}_{MCO} = \beta + (X'X)^{-1} X' w \beta\]
\[E[\hat{\beta}_{MCO}] = \beta + (X'X)^{-1} E[X^*w - w^2]\beta = \beta - (X'X)^{-1}\sigma_w^2 \beta\]
Con una sola variable independiente, el sesgo es:
\[E(\hat{\beta}) \approx \beta \cdot \frac{\sigma_{x^*}^2}{\sigma_w^2 + \sigma_{x^*}^2}\]
Este resultado se conoce como sesgo de atenuación: independientemente del signo de \(\beta\), el estimador MCO siempre estará sesgado hacia cero.
Resumen de consecuencias del error de medición:
| Dónde está el error | Sesgo | Eficiencia |
|---|---|---|
| Variable dependiente | No | Pierde |
| Variables independientes | Sí (hacia cero) | Pierde |
Soluciones: 1. Conseguir mejores datos 2. Modelar explícitamente el proceso de error de medición 3. Usar Variables Instrumentales
3. Simultaneidad
La teoría económica sugiere que dos o más variables se determinan simultáneamente. Ejemplos:
- Determinación de precios y cantidades en equilibrio parcial
- Inversión y productividad
- Ventas y publicidad
- Policía y homicidios (ejemplo clásico)
Ejemplo 14 — Working (1927): oferta y demanda de café
\[q_i^d = \alpha_0 + \alpha_1 p_i + u_i \quad \text{(demanda)}\] \[q_i^s = \beta_0 + \beta_1 p_i + v_i \quad \text{(oferta)}\] \[q_i^d = q_i^s\]
Resolviendo el sistema para \(p_i\) y \(q_i\):
\[p_i = \frac{\beta_0 - \alpha_0}{\alpha_1 - \beta_1} + \frac{v_i - u_i}{\alpha_1 - \beta_1}\]
\[q_i = \frac{\alpha_1\beta_0 - \alpha_0\beta_1}{\alpha_1 - \beta_1} + \frac{\alpha_1 v_i - \beta_1 u_i}{\alpha_1 - \beta_1}\]
El precio es función de ambas perturbaciones, por lo tanto:
\[Cov(p_i, u_i) = \frac{Var(u_i)}{\alpha_1 - \beta_1} \neq 0\]
Si estimamos la ecuación de demanda por MCO, el sesgo es:
\[E(\hat{\alpha}_1) = \alpha_1 - \frac{Var(u_i)}{(\alpha_1 - \beta_1)Var(p_i)}\]
La razón: cuando regresamos cantidad contra precio, no podemos saber si un cambio en precio proviene de un desplazamiento de la demanda o de la oferta. El estimador MCO no identifica ninguna de las dos curvas — es una mezcla de ambas.
La solución: observar algún factor que desplace solo una de las curvas. Por ejemplo, si hay una variable \(x_i\) que afecta solo la oferta (ej. costo del fertilizante), podemos usar \(x_i\) como variable instrumental para identificar la ecuación de demanda.
Resumen
| Causa | Fuente de \(Cov(\varepsilon, X) \neq 0\) | ¿MCO sesgado? | ¿MCO consistente? |
|---|---|---|---|
| Variables omitidas | Correlación con omitida | Sí | No |
| Error en var. indep. | \(X\) correlacionada con su propio error | Sí (hacia 0) | No |
| Simultaneidad | \(X\) y \(Y\) se determinan juntas | Sí | No |
En todos los casos, la solución general son las Variables Instrumentales (Capítulo 12).