5 Supuestos de MCO

Proceso Generador de Datos

El modelo de regresión lineal parte de la siguiente estructura:

\[ Y_i = X_i \beta + \epsilon_i \]

Donde: - \(Y_i\): variable dependiente (observación i) - \(X_i\): vector fila con los regresores de la observación i - \(\beta\): vector de parámetros poblacionales - \(\epsilon_i\): error poblacional (componentes no observables) - \(i = 1, 2, ..., n\)

Esta formulación describe el proceso generador de datos (PGD), base para los supuestos del MCO.

Tabla Resumen de Supuestos

Supuesto	Notación	Implicación principal
S1. Linealidad en los parámetros	\(y_i = X_i \beta + \epsilon_i\)	El modelo es lineal en los parámetros
S2. Exogeneidad estricta	\(\mathbb{E}[\epsilon_i \mid X] = 0\)	No hay correlación entre regresores y error
S3. Colinealidad imperfecta	\(\text{Rango}(X) = K\)	No hay multicolinealidad perfecta; modelo identificable
S4. Perturbaciones esféricas	\(\text{Var}(\epsilon_i \mid X) = \sigma^2\), \(\text{Cov}(\epsilon_i, \epsilon_j \mid X) = 0\)	Homocedasticidad y no autocorrelación
S5. Regresores no estocásticos	\(X\) es fija en repetidas muestras	Simplifica demostraciones teóricas
S6. Normalidad	\(\epsilon \mid X \sim \mathcal{N}(0, \sigma^2 I)\)	Solo necesaria para inferencia exacta

5.1 S1. Linealidad en los Parámetros {-}

El valor esperado de \(y\) está relacionado linealmente con los regresores:

\[ \mathbb{E}[Y_i \mid X_i] = X_i \beta \]

Esto permite distintas formas funcionales (lineales en parámetros):

Lineal: \(y_i = \beta_1 + \beta_2 x_i + \epsilon_i\)
Log-log: \(\log(y_i) = \beta_1 + \beta_2 \log(x_i) + \epsilon_i\)
Log-lineal: \(\log(y_i) = \beta_1 + \beta_2 x_i + \epsilon_i\)
Lineal-log: \(y_i = \beta_1 + \beta_2 \log(x_i) + \epsilon_i\)
Cuadrático: \(y_i = \beta_1 + \beta_2 x_i + \beta_3 x_i^2 + \epsilon_i\)
Interactuado: \(y_i = \beta_1 + \beta_2 x_1 + \beta_3 x_2 + \beta_4(x_1 x_2) + \epsilon_i\)

S2. Exogeneidad Estricta

\[ \mathbb{E}[\epsilon_i \mid X] = 0 \]

Esto implica que no existe relación sistemática entre los regresores y el término de error.

Ejemplos:

\(\mathbb{E}[u \mid X = 1] = 0\)
\(\mathbb{E}[u \mid X_2 = \text{Mujer}] = 0\)

Demostración (Ley de la esperanza iterada):

\[ \mathbb{E}[\epsilon_i] = \mathbb{E}\left[ \mathbb{E}[\epsilon_i \mid X] \right] = \mathbb{E}[0] = 0 \]

Equivalencia: Si \(\mathbb{E}[\epsilon_i \mid X] = 0\), entonces:

\[ \text{Cov}(\epsilon_i, X_j) = 0 \quad \forall j \]

Pero qué quiere decir?

Una forma de pensar en esta definición es:

Para cualquier valor de \(X\), el valor esperado de los residuos debe ser igual a cero

E.g., \(\mathop{E}\left[ u \mid X=1 \right]=0\) and \(\mathop{E}\left[ u \mid X=100 \right]=0\)
E.g., \(\mathop{E}\left[ u \mid X_2=\text{Mujer} \right]=0\) and \(\mathop{E}\left[ u \mid X_2=\text{Hombre} \right]=0\)
Note: \(\mathop{E}\left[ u \mid X \right]=0\) es más restrictivo que \(\mathop{E}\left[ u \right]=0\)

Graficamente…

Exogeneidad Estricta se Incumple, i.e., \(\mathop{E}\left[ \epsilon \mid X \right] \neq 0\)

S3. Colinealidad Imperfecta

\[ \text{Rango}(X) = K \]

Para que el modelo esté identificado, debe cumplirse que el número de observaciones sea mayor que el número de regresores: \(n > K\).

Violaciones comunes:

Regresor constante: \(X_j = c\)
Dos variables idénticas: \(X_j = X_k\)
Combinación lineal exacta: \(X_3 = X_1 + X_2\) Trampa de las variables binarias

Ejemplo de matriz con rango 3:

\[ A = \begin{bmatrix} 1 & 2 & 3 \\ 3 & 5 & 7 \\ 4 & 6 & 5 \\ \end{bmatrix} \quad \Rightarrow \text{Rango}(A) = 3 \]

Ejemplo de matriz con rango menor a 3:

\[ B = \begin{bmatrix} 1 & 3 & 1 \\ 3 & 8 & 2 \\ 2 & 9 & 5 \\ \end{bmatrix} \quad \Rightarrow \text{Rango}(B) \neq 3 \]

La tercera columna de \(B\) es combinación lineal de las otras dos:
\(C_3 = -2 \cdot C_1 + C_2\)

Wooldridge (2003) aclara que este supuesto permite que los regresores estén correlacionados, siempre que no haya una relación lineal exacta entre ellos.

5.2 S4. Perturbaciones Esféricas {-}

Este supuesto se compone de dos condiciones:

🔹 Homocedasticidad

\[ \text{Var}(\epsilon_i \mid X) = \sigma^2 \quad \forall i \]

La dispersión del término de error es constante para todos los individuos. Esto significa que la varianza de los errores no depende de los regresores.

🔹 No autocorrelación

\[ \text{Cov}(\epsilon_i, \epsilon_j \mid X) = 0 \quad \text{para } i \neq j \]

Los errores no están correlacionados entre sí. Es especialmente relevante en series de tiempo, pero también puede violarse en datos de corte transversal (e.g., por correlación espacial).

🔸 Implicación conjunta

Cuando se cumplen homocedasticidad y no autocorrelación:

\[ \text{Var}(\epsilon \mid X) = \sigma^2 I \]

La matriz de varianzas-covarianzas de los errores es escalar y diagonal, también llamada matriz esférica.

🧠 Derivación paso a paso {-}

\[ \text{Var}(\epsilon \mid X) = \mathbb{E}[\epsilon \epsilon' \mid X] - \mathbb{E}[\epsilon \mid X] \cdot \mathbb{E}[\epsilon' \mid X] \]

Por el supuesto de exogeneidad estricta (S2), sabemos que:

\[ \mathbb{E}[\epsilon \mid X] = 0 \quad \Rightarrow \quad \text{Var}(\epsilon \mid X) = \mathbb{E}[\epsilon \epsilon' \mid X] \]

Entonces, la matriz resultante es:

\[ \text{Var}(\epsilon \mid X) = \begin{bmatrix} \mathbb{E}[\epsilon_1^2 \mid X] & \mathbb{E}[\epsilon_1 \epsilon_2 \mid X] & \cdots & \mathbb{E}[\epsilon_1 \epsilon_n \mid X] \\ \mathbb{E}[\epsilon_2 \epsilon_1 \mid X] & \mathbb{E}[\epsilon_2^2 \mid X] & \cdots & \mathbb{E}[\epsilon_2 \epsilon_n \mid X] \\ \vdots & \vdots & \ddots & \vdots \\ \mathbb{E}[\epsilon_n \epsilon_1 \mid X] & \mathbb{E}[\epsilon_n \epsilon_2 \mid X] & \cdots & \mathbb{E}[\epsilon_n^2 \mid X] \end{bmatrix} \]

Aplicando los supuestos:

\(\text{Var}(\epsilon_i \mid X) = \sigma^2\)
\(\text{Cov}(\epsilon_i, \epsilon_j \mid X) = 0\) para \(i \neq j\)

\[ \Rightarrow \text{Var}(\epsilon \mid X) = \begin{bmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{bmatrix} = \sigma^2 I \]

Este supuesto es necesario para garantizar la eficiencia del estimador MCO bajo los supuestos clásicos (Teorema de Gauss-Markov).

5.3 S5. Regresores No Estocásticos {-}

Este supuesto establece que la matriz de regresores \(X\) no es aleatoria: sus valores permanecen fijos en repeticiones del experimento o entre muestras.

\[ X = \text{constante} \quad \text{(no varía entre muestras)} \]

🔹 ¿Qué significa?

Aunque en la práctica \(X\) proviene de una muestra aleatoria, asumir que es no estocástica permite tratarlo como fijo en la teoría. Esto implica que cualquier inferencia o estimación se condiciona sobre \(X\).

✅ Ventajas teóricas

Simplifica la demostración de propiedades como insesgamiento y varianza mínima.
Permite eliminar la distinción entre:
- valor esperado condicional: \(\mathbb{E}[\hat{\beta} \mid X]\)
- y valor esperado incondicional: \(\mathbb{E}[\hat{\beta}]\)

⚠️ En la práctica…

Este supuesto rara vez se cumple literalmente, ya que \(X\) normalmente proviene de una muestra aleatoria. Sin embargo, es común en teoría clásica porque:

No afecta la validez del MCO si se asume que \(X\) es independiente de \(\epsilon\).
Se puede relajar en contextos de modelos más generales (paneles, variables instrumentales, etc.).

En modelos con regresores estocásticos, se requiere en cambio que \(\mathbb{E}[\epsilon \mid X] = 0\), lo que recupera el supuesto de exogeneidad estricta (S2).

S6. Normalidad del Error

\[ \epsilon \mid X \sim \mathcal{N}(0, \sigma^2 I) \]

Este supuesto establece que los errores, condicionales a los regresores, siguen una distribución normal multivariada con media cero y matriz de varianza-covarianza esférica \(\sigma^2 I\).

🎯 ¿Para qué sirve?

Este supuesto no es necesario para que el estimador de Mínimos Cuadrados Ordinarios (MCO) sea:

Insesgado (S2 ya garantiza eso),
Eficiente entre estimadores lineales insesgados (por el Teorema de Gauss-Markov).

Sin embargo, sí es crucial para que se cumpla la distribución exacta de ciertos estadísticos en muestras pequeñas.

✅ Aplicaciones de la normalidad:

Validez de las pruebas t para significancia individual.
Validez de las pruebas F para restricciones conjuntas.
Construcción exacta de intervalos de confianza para \(\beta\).

🧠 ¿Qué pasa en muestras grandes?

Gracias al Teorema Central del Límite y **La Ley de los Grandes Números*, incluso si \(\epsilon\) no es normal, el estimador \(\hat{\beta}\) tenderá a seguir una distribución normal asintótica:

\[ \hat{\beta} \overset{approx}{\sim} \mathcal{N}\left(\beta, \sigma^2 (X'X)^{-1}\right) \]

Por eso, la normalidad puede relajarse si \(n\) es suficientemente grande.

5.4 Glosario de Símbolos {-}

Símbolo	Significado
\(Y_i\)	Variable dependiente
\(X_{ij}\)	Regresor j para observación i
\(\beta_j\)	Parámetro poblacional
\(\epsilon_i\)	Error poblacional
\(n\)	Número de observaciones
\(k\)	Número de regresores (sin constante)

📘 Preguntas de repaso

📘 1. Conceptuales

Defina brevemente los siguientes términos:

Econometría teórica
Econometría aplicada

¿Qué papel juega cada uno de los seis supuestos del modelo clásico de regresión lineal en garantizar las propiedades del estimador de MCO?

🧮 2. Clasificación de modelos

Clasifique los siguientes modelos como lineales en parámetros o no lineales:

\(y_i = \beta_0 + \beta_1 x_i + \epsilon_i\)
\(\log(y_i) = \beta_0 + \beta_1 \log(x_i) + \epsilon_i\)
\(y_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \epsilon_i\)
\(y_i = \frac{\beta_0}{1 + e^{-\beta_1 x_i}} + \epsilon_i\)
\(y_i = \alpha + \theta^{x_i} + \epsilon_i\)

📏 3. Interpretación de la pendiente

Interprete el coeficiente \(\beta_1\) en los siguientes modelos de regresión lineal simple:

\(y_i = \beta_0 + \beta_1 x_i + \epsilon_i\)
\(\log(y_i) = \beta_0 + \beta_1 x_i + \epsilon_i\)
\(y_i = \beta_0 + \beta_1 \log(x_i) + \epsilon_i\)
\(\log(y_i) = \beta_0 + \beta_1 \log(x_i) + \epsilon_i\)

En cada caso, explique qué representa un aumento marginal en \(x_i\), y si los efectos son absolutos, porcentuales o elásticos.

🎥 Recursos audiovisuales

¿Qué hacen los economistas? (Video 1)

An Uneven Paying Field (Video 2)