🌳 Random Forest (Bosque Aleatorio)

👨‍🏫 Profesor: Sergio Gevatschnaider  |  ⏳ Duración: 120 min

1. ¿Por qué Random Forest?

Un Random Forest construye múltiples árboles de decisión sobre subconjuntos aleatorios de datos y variables, y luego agrega sus predicciones (voto mayoritario o promedio). Esta estrategia reduce la varianza sin aumentar demasiado el sesgo, creando modelos robustos y estables.

2. Anatomía de un Bosque

🌱 Bootstrap Sampling

Cada árbol se entrena con una muestra con reemplazo del conjunto de entrenamiento.

🔀 Subconjunto de Características

En cada división se usa un grupo aleatorio de variables (max_features), reduciendo la correlación entre árboles.

🗳️ Agregación

Clasificación → voto mayoritario
Regresión → promedio.

🎯 OOB Score

Las observaciones fuera de cada bootstrap (Out-Of-Bag) actúan como validación interna.

3. Fundamentos Teóricos

3.1 Bagging y Ley de los Grandes Números

Al promediar clasificadores i.i.d. con varianza σ², la varianza del conjunto disminuye como σ² ⁄ T, donde T es el número de modelos.

3.2 Sesgo-Varianza-Correlación

La precisión de un bosque depende de la varianza individual de cada árbol y de la correlación promedio entre ellos. Random Forest mantiene árboles poco correlacionados gracias al feature bagging.

3.3 Importancia de Variables

MDI (Impureza Media Disminuida): rápida, pero sesgada hacia variables con muchas categorías.
Permutaciones: más costoso, pero refleja la contribución real al rendimiento.

3.4 OOB Error vs. Validación Cruzada

Con bootstrap=true, el error OOB ofrece una estimación comparable a una k-fold con k ≈ T particiones, pero con menor coste.

3.5 Limitaciones Teóricas

4. Parámetros Clave y Métricas

El Error OOB se calcula con las observaciones que cada árbol no vio. Suele estabilizarse cuando n_estimators ≥ 100.

MDI (reducción de impureza) y Permutation Importance son los dos enfoques más comunes para cuantificar el aporte de cada variable.

n_estimators

Número de árboles (mayor → menor varianza, mayor cómputo).

max_depth

Profundidad máxima de cada árbol (control del sobre-ajuste).

max_features

Variables candidatas por split.
Clasificación → √p
Regresión → p/3

min_samples_leaf

Tamaño mínimo de hoja, suaviza predicciones.

5. Demo Interactiva — Convergencia del Error OOB

Error OOB*: 0.160
*Valor sintetizado con una función exponencial para fines docentes.

6. Ventajas & Limitaciones

✅ Ventajas

  • Alto rendimiento “listo para usar”.
  • Robusto a outliers y datos faltantes.
  • Estimación OOB integrada.
  • Manejo de variables mixtas.

⚠️ Limitaciones

  • Tamaño de modelo en memoria.
  • Tiempos de inferencia más altos.
  • Interpretabilidad global limitada.
  • Importancia MDI sesgada a variables con muchas categorías.

7. Aplicaciones Prácticas