⚡ Gradient Boosted Trees (Árboles Potenciados por Gradiente)

👨‍🏫 Profesor: Sergio Gevatschnaider | ⏳ Duración: 120 min

1. ¿Por qué Gradient Boosting?

Gradient Boosting construye árboles de decisión secuencialmente, cada uno corrigiendo los errores del conjunto previo. Al minimizar directamente una función de pérdida vía descenso por gradiente, obtiene un modelo de bajo sesgo muy flexible capaz de capturar relaciones complejas.

2. Anatomía del Proceso de Boosting

① Modelo Inicial

Comienza con una predicción constante (media/mediana).

② Gradiente

Se calcula el gradiente de la pérdida ➜ residuos a aprender.

③ Árbol Débil

Se entrena un árbol pequeño sobre esos residuos.

④ Actualización

Predicciónᵗ⁺¹ ← Predicciónᵗ + η × árbol.

⑤ Ciclo

Repetir los pasos ②-④ M veces.

3. Fundamentos Teóricos

3.1 Minimización Funcional

Gradient Boosting implementa un descenso por gradiente en el espacio de funciones: cada árbol es un vector paso en la dirección de máximo descenso de la pérdida.

3.2 Trees as Base Learners

Los árboles “débiles” (stumps o profundidad ≤ 5) proporcionan alta varianza incremental, ideal para un proceso de boosting que reduce sesgo poco a poco.

3.3 Trade-off η vs. M

Disminuir el learning rate (η) y aumentar el número de iteraciones (M) suele mejorar la generalización a costa de más cómputo.

3.4 Regularización Explícita

Shrinkage (η), sub-muestreo (stochastic boosting) y restricciones de árbol (max_depth, min_samples_leaf) controlan la complejidad.

3.5 Relación con AdaBoost

AdaBoost es un caso particular con pérdida exponencial y η = 1.

4. Parámetros Clave y Métricas

📉 Pérdidas

🛡️ Regularización

⚙️ Hiperparámetros

Clasificación: log-loss o pérdida exponencial (AdaBoost).
Regresión: L2, L1 o Huber.

Shrinkage (η), sub-muestreo (subsample) y restricciones del árbol base controlan el sobre-ajuste.

`learning_rate (η)`

0.01–0.3 típico.

`n_estimators (M)`

Iteraciones/árboles totales.

`max_depth`

Profundidad del árbol base (3–6 recomendado).

`subsample`

Fracción de muestras por iteración (0.5–1).

5. Demo Interactiva — Dinámica de Error

Árboles (M): 100 η (learning rate): 0.10

Train Error: 0.120 | Val Error: 0.145

*Valores sintéticos para ilustrar la convergencia y el sobre-ajuste.

6. Ventajas & Limitaciones

✅ Ventajas

Bajo sesgo, alta precisión.
Soporta pérdidas personalizadas.
Regularización flexible (η, subsample).
Manejo de variables mixtas y faltantes (implementaciones modernas).

⚠️ Limitaciones

Entrenamiento más lento que Random Forest.
Sensible a la configuración de hiperparámetros.
Riesgo de sobre-ajuste con η grande y M alto.
Difícil paralelizar la etapa de entrenamiento puro (salvo variantes como XGBoost, LightGBM).

7. Aplicaciones Prácticas

🔮 Riesgo crediticio
🩺 Modelos de supervivencia
⚡ Pronóstico de demanda energética
📈 Motores de recomendación
💡 Detección de anomalías IoT