🌳 Random Forest (Bosque Aleatorio)

👨‍🏫 Profesor: Sergio Gevatschnaider | ⏳ Duración: 120 min

1. ¿Por qué Random Forest?

Un Random Forest construye múltiples árboles de decisión sobre subconjuntos aleatorios de datos y variables, y luego agrega sus predicciones (voto mayoritario o promedio). Esta estrategia reduce la varianza sin aumentar demasiado el sesgo, creando modelos robustos y estables.

2. Anatomía de un Bosque

🌱 Bootstrap Sampling

Cada árbol se entrena con una muestra con reemplazo del conjunto de entrenamiento.

🔀 Subconjunto de Características

En cada división se usa un grupo aleatorio de variables (max_features), reduciendo la correlación entre árboles.

🗳️ Agregación

Clasificación → voto mayoritario
Regresión → promedio.

🎯 OOB Score

Las observaciones fuera de cada bootstrap (Out-Of-Bag) actúan como validación interna.

3. Fundamentos Teóricos

3.1 Bagging y Ley de los Grandes Números

Al promediar clasificadores i.i.d. con varianza σ², la varianza del conjunto disminuye como σ² ⁄ T, donde T es el número de modelos.

3.2 Sesgo-Varianza-Correlación

La precisión de un bosque depende de la varianza individual de cada árbol y de la correlación promedio entre ellos. Random Forest mantiene árboles poco correlacionados gracias al feature bagging.

3.3 Importancia de Variables

MDI (Impureza Media Disminuida): rápida, pero sesgada hacia variables con muchas categorías.
Permutaciones: más costoso, pero refleja la contribución real al rendimiento.

3.4 OOB Error vs. Validación Cruzada

Con bootstrap=true, el error OOB ofrece una estimación comparable a una k-fold con k ≈ T particiones, pero con menor coste.

3.5 Limitaciones Teóricas

Puede sobre-ajustar si max_depth no se controla en datos muy ruidosos.
Interpretación global limitada (se usan SHAP o importancias).
Tiempo de inferencia crece linealmente con el número de árboles.

4. Parámetros Clave y Métricas

📈 OOB Error

🌟 Importancia

⚙️ Hiperparámetros

El Error OOB se calcula con las observaciones que cada árbol no vio. Suele estabilizarse cuando n_estimators ≥ 100.

MDI (reducción de impureza) y Permutation Importance son los dos enfoques más comunes para cuantificar el aporte de cada variable.

`n_estimators`

Número de árboles (mayor → menor varianza, mayor cómputo).

`max_depth`

Profundidad máxima de cada árbol (control del sobre-ajuste).

`max_features`

Variables candidatas por split.
Clasificación → √p
Regresión → p/3

`min_samples_leaf`

Tamaño mínimo de hoja, suaviza predicciones.

5. Demo Interactiva — Convergencia del Error OOB

Número de árboles (100):

Error OOB*: 0.160
*Valor sintetizado con una función exponencial para fines docentes.

6. Ventajas & Limitaciones

✅ Ventajas

Alto rendimiento “listo para usar”.
Robusto a outliers y datos faltantes.
Estimación OOB integrada.
Manejo de variables mixtas.

⚠️ Limitaciones

Tamaño de modelo en memoria.
Tiempos de inferencia más altos.
Interpretabilidad global limitada.
Importancia MDI sesgada a variables con muchas categorías.

7. Aplicaciones Prácticas

🔍 Detección de fraude financiero
🩺 Diagnóstico médico asistido
🌳 Clasificación de especies en bioinformática
🏡 Tasación inmobiliaria (regresión)
💬 Filtrado de spam y toxicidad