🌳 Random Forest (Bosque Aleatorio)
👨🏫 Profesor: Sergio Gevatschnaider | ⏳ Duración: 120 min
1. ¿Por qué Random Forest?
Un Random Forest construye múltiples árboles de decisión sobre subconjuntos aleatorios de datos y variables, y luego agrega sus predicciones (voto mayoritario o promedio). Esta estrategia reduce la varianza sin aumentar demasiado el sesgo, creando modelos robustos y estables.
2. Anatomía de un Bosque
🌱 Bootstrap Sampling
Cada árbol se entrena con una muestra con reemplazo del conjunto de entrenamiento.
🔀 Subconjunto de Características
En cada división se usa un grupo aleatorio de variables (max_features
),
reduciendo la correlación entre árboles.
🗳️ Agregación
Clasificación → voto mayoritario
Regresión → promedio.
🎯 OOB Score
Las observaciones fuera de cada bootstrap (Out-Of-Bag) actúan como validación interna.
3. Fundamentos Teóricos
3.1 Bagging y Ley de los Grandes Números
Al promediar clasificadores i.i.d. con varianza σ², la varianza del conjunto disminuye como σ² ⁄ T, donde T es el número de modelos.
3.2 Sesgo-Varianza-Correlación
La precisión de un bosque depende de la varianza individual de cada árbol y de la correlación promedio entre ellos. Random Forest mantiene árboles poco correlacionados gracias al feature bagging.
3.3 Importancia de Variables
MDI (Impureza Media Disminuida): rápida, pero sesgada
hacia variables con muchas categorías.
Permutaciones: más costoso, pero refleja la contribución real al rendimiento.
3.4 OOB Error vs. Validación Cruzada
Con bootstrap=true
, el error OOB ofrece una estimación comparable a una k-fold
con k ≈ T particiones, pero con menor coste.
3.5 Limitaciones Teóricas
- Puede sobre-ajustar si
max_depth
no se controla en datos muy ruidosos. - Interpretación global limitada (se usan SHAP o importancias).
- Tiempo de inferencia crece linealmente con el número de árboles.
4. Parámetros Clave y Métricas
El Error OOB se calcula con las observaciones que cada árbol no vio. Suele estabilizarse cuando n_estimators ≥ 100.
MDI (reducción de impureza) y Permutation Importance son los dos enfoques más comunes para cuantificar el aporte de cada variable.
n_estimators
Número de árboles (mayor → menor varianza, mayor cómputo).
max_depth
Profundidad máxima de cada árbol (control del sobre-ajuste).
max_features
Variables candidatas por split.
Clasificación → √p
Regresión → p/3
min_samples_leaf
Tamaño mínimo de hoja, suaviza predicciones.
5. Demo Interactiva — Convergencia del Error OOB
Error OOB*: 0.160
*Valor sintetizado con una función exponencial para fines docentes.
6. Ventajas & Limitaciones
✅ Ventajas
- Alto rendimiento “listo para usar”.
- Robusto a outliers y datos faltantes.
- Estimación OOB integrada.
- Manejo de variables mixtas.
⚠️ Limitaciones
- Tamaño de modelo en memoria.
- Tiempos de inferencia más altos.
- Interpretabilidad global limitada.
- Importancia MDI sesgada a variables con muchas categorías.
7. Aplicaciones Prácticas
- 🔍 Detección de fraude financiero
- 🩺 Diagnóstico médico asistido
- 🌳 Clasificación de especies en bioinformática
- 🏡 Tasación inmobiliaria (regresión)
- 💬 Filtrado de spam y toxicidad