12 Variables Instrumentales

La idea: un instrumento como fuente de variación exógena

Cuando existe endogeneidad (\(Cov(\varepsilon, X) \neq 0\)), necesitamos una fuente de variación en \(X\) que sea exógena — es decir, que no esté correlacionada con \(\varepsilon\). Eso es exactamente lo que hace una variable instrumental \(Z\).

La intuición del estimador de variables instrumentales: dado que \(X\) causa \(Y\) pero también está correlacionada con el error, buscamos una variable \(Z\) que “mueva” a \(X\) sin tener efecto directo sobre \(Y\). La variación en \(Y\) atribuida a \(Z\) identifica el efecto causal de \(X\).

Condiciones del instrumento

Una variable instrumental \(Z\) debe cumplir dos condiciones:

Condición 1 — Validez (exogeneidad): \[Cov(\varepsilon, Z) = 0 \quad \Rightarrow \quad E[\varepsilon \mid Z] = 0\]

El instrumento no está correlacionado con el error. Esta condición no puede probarse directamente en un modelo exactamente identificado — requiere argumentación teórica y conocimiento del contexto.

Condición 2 — Relevancia: \[Cov(Z, X) \neq 0 \quad \Rightarrow \quad E[X \mid Z] \neq 0\]

El instrumento sí está correlacionado con la variable endógena. Esta condición sí puede probarse con datos: basta con correr la primera etapa y verificar que el instrumento es significativo.

El estimador de Variables Instrumentales (IV)

Sea \(Z_{n \times r}\) la matriz de \(r\) variables instrumentales y \(X_{n \times k}\) la matriz de \(k\) variables endógenas.

De la condición de validez:

\[E[\varepsilon \mid Z] = 0 \quad \Rightarrow \quad Z'\varepsilon = 0 \quad \Rightarrow \quad Z'(y - X\hat{\beta}) = 0\]

Resolviendo para \(\hat{\beta}\):

\[\boxed{\hat{\beta}_{VI} = (Z'X)^{-1} Z'y}\]

Este estimador requiere que \(r = k\) (modelo exactamente identificado: tantos instrumentos como variables endógenas).

Caso especial — instrumento binario:

Cuando \(Z\) es una variable binaria (ej. asignación aleatoria a un programa), el estimador IV se reduce al estimador de Wald:

\[\hat{\beta}_{VI} = \frac{\bar{Y}_{Z=1} - \bar{Y}_{Z=0}}{\bar{X}_{Z=1} - \bar{X}_{Z=0}} = \frac{\Delta Y / \Delta Z}{\Delta X / \Delta Z}\]

Es la variación en \(Y\) atribuida a \(Z\), dividida entre la variación en \(X\) atribuida a \(Z\).

Propiedades del estimador IV

Propiedad	Resultado
Insesgado	No: \(E[\hat{\beta}_{VI}] \neq \beta\) en muestras finitas
Consistente	Sí: \(\text{plim}(\hat{\beta}_{VI}) = \beta\)
Varianza (homoced.)	\(Var[\hat{\beta}_{VI}] = \sigma_\varepsilon^2 (Z'X)^{-1} Z'Z (Z'X)^{-1}\)

¿Por qué es consistente?

\[\hat{\beta}_{VI} = \beta + (Z'X)^{-1} Z'\varepsilon \cdot \frac{1}{n}\]

\[\text{plim}(\hat{\beta}_{VI}) = \beta + \underbrace{E\left[\frac{Z'X}{n}\right]^{-1}}_{\neq 0} \underbrace{E\left[\frac{Z'\varepsilon}{n}\right]}_{=0 \text{ (validez)}} = \beta\]

La validez del instrumento (\(E[Z'\varepsilon] = 0\)) garantiza la consistencia, aunque el estimador sea sesgado en muestras finitas.

Mínimos Cuadrados en Dos Etapas (MCO2E / 2SLS)

Cuando \(r > k\) (modelo sobreidentificado: más instrumentos que variables endógenas), no podemos usar el estimador IV directamente. El estimador MCO2E generaliza el IV usando la proyección de \(X\) sobre todos los instrumentos.

Sea \(P_Z = Z(Z'Z)^{-1}Z'\) la matriz de proyección sobre el espacio de \(Z\).

Primera etapa

Estimar \(\hat{\delta}\) de la regresión de \(X\) sobre \(Z\):

\[X = Z\delta + \mu \quad \Rightarrow \quad \hat{\delta} = (Z'Z)^{-1}Z'X\]

Calcular los valores ajustados:

\[\hat{X} = Z\hat{\delta} = Z(Z'Z)^{-1}Z'X = P_Z X\]

Segunda etapa

Reemplazar \(X\) por \(\hat{X}\) en la ecuación principal y estimar:

\[y = \hat{X}\beta + \varepsilon\]

\[\boxed{\hat{\beta}_{MCO2E} = (X'P_Z X)^{-1} X'P_Z y}\]

Propiedades de MCO2E:

Sesgado en muestras finitas: \(E[\hat{\beta}_{MCO2E}] \neq \beta\)
Consistente: \(\text{plim}[\hat{\beta}_{MCO2E}] = \beta\)
Varianza bajo homocedasticidad: \(Var(\hat{\beta}_{MCO2E}) = \sigma_\varepsilon^2 (X'P_Z X)^{-1}\)
Varianza bajo heterocedasticidad: \(\sigma_\varepsilon^2 (X'P_Z X)^{-1} X'P_Z \Psi P_Z' X (X'P_Z X)^{-1}\)

Resultado importante: cuando el modelo está exactamente identificado (\(r = k\)), MCO2E coincide con el estimador IV:

\[\hat{\beta}_{MCO2E} = (Z'X)^{-1}(Z'Z)(Z'Z)^{-1}Z'y = (Z'X)^{-1}Z'y = \hat{\beta}_{VI}\]

Por eso, MCO2E se puede usar siempre — esté el modelo exactamente identificado o sobreidentificado.

Ejemplos clásicos

1. Angrist & Krueger (1991) — Retornos a la educación

Variable endógena: educación (correlacionada con habilidad no observada)
Instrumento: trimestre de nacimiento
Lógica: la ley obliga a ingresar al colegio con 6 años y permanecer hasta los 16. Los nacidos en distintos trimestres terminan con distintos años de educación al cumplir 16.
Resultado: MCO → 5.7% por año de educación; MCO2E → 3.9%

2. Card (1993) — Retornos a la educación

Instrumento: proximidad a una universidad en el área de residencia
Lógica: vivir lejos de una universidad encarece la educación y reduce la inversión educativa, especialmente en familias de bajos ingresos
Resultado: MCO → 7.3%; MCO2E → 13.2%

3. Griliches (1976) — Ejemplo en Stata

Estima retornos a la educación con datos del NLS (758 hombres jóvenes):

\[LW = \alpha + \beta_1 IQ + \beta_2 Edu + \beta_3 Exp + \beta_4 Tenure + \beta_5 Sur + \beta_6 Urban + \alpha_t + \varepsilon\]

Problemas: omisión de habilidad + IQ medido con error → MCO2E con instrumentos para IQ y educación.

Implementación en Stata

* MCO (sesgado si hay endogeneidad)
reg y x1 x2 controls

* MCO2E con un instrumento z1
ivregress 2sls y controls (x1 = z1)

* MCO2E con dos instrumentos z1 z2 para x1
ivregress 2sls y controls (x1 = z1 z2)

* Con errores estándar robustos
ivregress 2sls y controls (x1 = z1 z2), robust

* GMM eficiente (para heterocedasticidad)
ivregress gmm y controls (x1 = z1 z2), robust

* También disponible: ivreg2 (SSC, más opciones de pruebas)
ssc install ivreg2
ivreg2 y controls (x1 = z1 z2), robust first

Instrumentos débiles

Un instrumento es débil cuando \(Cov(Z, X)\) es pequeña — el instrumento explica poco de la variación en \(X\).

Señales de debilidad:

La correlación entre \(X\) y \(Z\) es baja
El \(R^2\) de la regresión de primera etapa de \(X\) contra \(Z\) es bajo
Los instrumentos no son significativos ni individual ni conjuntamente en la primera etapa

Regla práctica: el estadístico \(F\) de la primera etapa debe ser mayor a 10 (Stock & Yogo, 2005). Con \(F < 10\), la inferencia con MCO2E es poco confiable.

Consecuencias de instrumentos débiles:

La distribución de \(\hat{\beta}_{MCO2E}\) no sigue una normal asintótica
Los intervalos de confianza estándar son incorrectos
En el límite (\(Cov(Z,X) = 0\)), MCO2E no está identificado

Cómo verificar en Stata:

* Primera etapa con estadístico F
ivregress 2sls y controls (x1 = z1 z2), first

* Test formal de instrumentos débiles
estat firststage

Test de Hausman (endogeneidad)

El test de Hausman compara MCO e IV. La hipótesis nula es que MCO e IV producen estimadores similares — es decir, que NO hay endogeneidad.

\[H = \frac{[\hat{\beta}_{MCO2E} - \hat{\beta}_{MCO}]^2}{Var(\hat{\beta}_{MCO2E}) - Var(\hat{\beta}_{MCO})} \sim \chi^2(k)\]

donde \(k\) es el número de variables endógenas.

Forma práctica (regresión auxiliar):

Dado el modelo \(Y_1 = \alpha_1 Y_2 + X\beta + \varepsilon\), donde \(Y_2\) es potencialmente endógena:

Primera etapa: \(Y_2 = Z\delta + X\beta + \mu \quad \Rightarrow \quad \hat{\mu} = Y_2 - \hat{Y}_2\)
Regresión aumentada: \(Y_1 = X\beta + \hat{\mu}\rho + \varepsilon\)
Probar \(H_0: \rho = 0\) con una prueba \(t\)

Si \(\rho \neq 0\), los residuos de la primera etapa son significativos en la ecuación principal → hay endogeneidad.

* Test de Hausman en Stata
ivregress 2sls y controls (x1 = z1 z2)
estat endogenous

Limitación: este test es válido solo bajo homocedasticidad.

Test de Sargan (sobreidentificación)

Cuando el modelo está sobreidentificado (\(r > k\): más instrumentos que variables endógenas), es posible probar si los instrumentos adicionales son exógenos.

Lógica: si todos los instrumentos son válidos, los residuos de MCO2E no deben estar correlacionados con ninguno de ellos.

Procedimiento:

Estimar el modelo por MCO2E y obtener los residuos: \(\hat{\varepsilon} = y - X\hat{\beta}_{MCO2E}\)
Regresar los residuos contra todos los instrumentos \(Z\) y las variables exógenas \(X\)
El estadístico de Sargan es:

\[\text{Sargan} = n \cdot R^2_{\hat{\varepsilon}, Z, X} \sim \chi^2(r - k)\]

donde \(r - k\) es el número de restricciones de sobreidentificación.

Interpretación:

\(H_0\): todos los instrumentos son válidos (\(Cov(Q_i, \varepsilon) = 0\) para los instrumentos adicionales)
Si se rechaza: al menos uno de los instrumentos adicionales no es exógeno — el modelo está mal especificado
Si no se rechaza: los datos son consistentes con la validez de los instrumentos

Advertencia importante: si el modelo está exactamente identificado (\(r = k\)), el test de Sargan NO puede aplicarse. En ese caso, la exogeneidad del instrumento solo puede argumentarse con teoría económica.

* Test de Sargan en Stata
ivregress 2sls y controls (x1 = z1 z2), robust
estat overid

Método Generalizado de Momentos (MGM/GMM)

El estimador IV y MCO2E son casos especiales del Método Generalizado de Momentos (MGM). La condición de exogeneidad de los instrumentos implica:

\[E[Z'\varepsilon \mid X] = 0 \quad \Rightarrow \quad E[g(\beta)] = 0\]

donde los momentos muestrales son:

\[g(\hat{\beta}) = \frac{1}{n}\sum_{i=1}^{n} Z_i(y_i - X_i\hat{\beta})\]

Cuando el modelo está sobreidentificado (\(r > K\)), hay más ecuaciones de momentos que parámetros desconocidos. El MGM minimiza la forma cuadrática:

\[J(\beta) = n \cdot g(\hat{\beta})' W g(\hat{\beta})\]

El estimador MGM es:

\[\hat{\beta}_{MGM} = (X'ZWZ'X)^{-1}X'ZWZ'y\]

Relación con estimadores conocidos:

Matriz \(W\)	Estimador resultante
\(W = (Z'Z)^{-1}\)	\(\hat{\beta}_{MCO2E}\)
\(W = (X'Z)^{-1}\)	\(\hat{\beta}_{VI}\)
\(W = S^{-1} = [Var(Z'\varepsilon)]^{-1}\)	MGM eficiente

El MGM eficiente usa \(W = S^{-1}\) — la inversa de la varianza de los momentos. En la práctica:

Estimar por MCO2E, obtener residuos: \(\hat{\varepsilon} = y - X\hat{\beta}_{MCO2E}\)
Construir \(\hat{W} = \left[\frac{1}{n}\sum \hat{\varepsilon}_i^2 Z_i'Z_i\right]^{-1}\)
Estimar: \(\hat{\beta}_{MGM} = (X'Z\hat{W}Z'X)^{-1}X'Z\hat{W}Z'y\)

¿Cuándo usar GMM sobre MCO2E?

Si el modelo está perfectamente identificado: MGM = IV (no hay ganancia)
Si el modelo está sobreidentificado y hay homocedasticidad: MGM = MCO2E
Si hay heterocedasticidad: MCO2E no es eficiente; GMM sí

* GMM eficiente en Stata
ivregress gmm y controls (x1 = z1 z2), wmatrix(robust)

* O usando ivreg2
ivreg2 y controls (x1 = z1 z2), gmm2s robust

Lecturas recomendadas

Verbeek (2017) — A Guide to Modern Econometrics, Cap. 5 — tratamiento completo de IV, MCO2E y GMM
Angrist & Pischke (2009) — Mostly Harmless Econometrics, Cap. 4 — enfoque de programa de evaluación
Angrist & Krueger (1991) — “Does compulsory school attendance affect schooling and earnings?”, QJE — ejemplo canónico
Card (1993) — “Using geographic variation in college proximity to estimate the return to schooling”, NBER WP — otro ejemplo clásico
Stock & Yogo (2005) — “Testing for weak instruments in linear IV regression” — criterio de instrumentos débiles