⚡ Gradient Boosted Trees (Árboles Potenciados por Gradiente)
👨🏫 Profesor: Sergio Gevatschnaider | ⏳ Duración: 120 min
1. ¿Por qué Gradient Boosting?
Gradient Boosting construye árboles de decisión secuencialmente, cada uno corrigiendo los errores del conjunto previo. Al minimizar directamente una función de pérdida vía descenso por gradiente, obtiene un modelo de bajo sesgo muy flexible capaz de capturar relaciones complejas.
2. Anatomía del Proceso de Boosting
① Modelo Inicial
Comienza con una predicción constante (media/mediana).
② Gradiente
Se calcula el gradiente de la pérdida ➜ residuos a aprender.
③ Árbol Débil
Se entrena un árbol pequeño sobre esos residuos.
④ Actualización
Predicciónᵗ⁺¹ ← Predicciónᵗ + η × árbol.
⑤ Ciclo
Repetir los pasos ②-④ M veces.
3. Fundamentos Teóricos
3.1 Minimización Funcional
Gradient Boosting implementa un descenso por gradiente en el espacio de funciones: cada árbol es un vector paso en la dirección de máximo descenso de la pérdida.
3.2 Trees as Base Learners
Los árboles “débiles” (stumps o profundidad ≤ 5) proporcionan alta varianza incremental, ideal para un proceso de boosting que reduce sesgo poco a poco.
3.3 Trade-off η vs. M
Disminuir el learning rate (η) y aumentar el número de iteraciones (M) suele mejorar la generalización a costa de más cómputo.
3.4 Regularización Explícita
Shrinkage (η), sub-muestreo (stochastic boosting) y restricciones de árbol (max_depth
, min_samples_leaf
) controlan la complejidad.
3.5 Relación con AdaBoost
AdaBoost es un caso particular con pérdida exponencial y η = 1.
4. Parámetros Clave y Métricas
Clasificación: log-loss o pérdida exponencial (AdaBoost).
Regresión: L2, L1 o Huber.
Shrinkage (η), sub-muestreo (subsample
) y restricciones del árbol base controlan el sobre-ajuste.
learning_rate (η)
0.01–0.3 típico.
n_estimators (M)
Iteraciones/árboles totales.
max_depth
Profundidad del árbol base (3–6 recomendado).
subsample
Fracción de muestras por iteración (0.5–1).
5. Demo Interactiva — Dinámica de Error
Train Error: 0.120 | Val Error: 0.145
*Valores sintéticos para ilustrar la convergencia y el sobre-ajuste.6. Ventajas & Limitaciones
✅ Ventajas
- Bajo sesgo, alta precisión.
- Soporta pérdidas personalizadas.
- Regularización flexible (η, subsample).
- Manejo de variables mixtas y faltantes (implementaciones modernas).
⚠️ Limitaciones
- Entrenamiento más lento que Random Forest.
- Sensible a la configuración de hiperparámetros.
- Riesgo de sobre-ajuste con η grande y M alto.
- Difícil paralelizar la etapa de entrenamiento puro (salvo variantes como XGBoost, LightGBM).
7. Aplicaciones Prácticas
- 🔮 Riesgo crediticio
- 🩺 Modelos de supervivencia
- ⚡ Pronóstico de demanda energética
- 📈 Motores de recomendación
- 💡 Detección de anomalías IoT