```html Clase · Gradient Boosted Trees (Árboles Potenciados por Gradiente)

⚡ Gradient Boosted Trees (Árboles Potenciados por Gradiente)

👨‍🏫 Profesor: Sergio Gevatschnaider  |  ⏳ Duración: 120 min

1. ¿Por qué Gradient Boosting?

Gradient Boosting construye árboles de decisión secuencialmente, cada uno corrigiendo los errores del conjunto previo. Al minimizar directamente una función de pérdida vía descenso por gradiente, obtiene un modelo de bajo sesgo muy flexible capaz de capturar relaciones complejas.

2. Anatomía del Proceso de Boosting

① Modelo Inicial

Comienza con una predicción constante (media/mediana).

② Gradiente

Se calcula el gradiente de la pérdida ➜ residuos a aprender.

③ Árbol Débil

Se entrena un árbol pequeño sobre esos residuos.

④ Actualización

Predicciónᵗ⁺¹ ← Predicciónᵗ + η × árbol.

⑤ Ciclo

Repetir los pasos ②-④ M veces.

3. Fundamentos Teóricos

3.1 Minimización Funcional

Gradient Boosting implementa un descenso por gradiente en el espacio de funciones: cada árbol es un vector paso en la dirección de máximo descenso de la pérdida.

3.2 Trees as Base Learners

Los árboles “débiles” (stumps o profundidad ≤ 5) proporcionan alta varianza incremental, ideal para un proceso de boosting que reduce sesgo poco a poco.

3.3 Trade-off η vs. M

Disminuir el learning rate (η) y aumentar el número de iteraciones (M) suele mejorar la generalización a costa de más cómputo.

3.4 Regularización Explícita

Shrinkage (η), sub-muestreo (stochastic boosting) y restricciones de árbol (max_depth, min_samples_leaf) controlan la complejidad.

3.5 Relación con AdaBoost

AdaBoost es un caso particular con pérdida exponencial y η = 1.

4. Parámetros Clave y Métricas

Clasificación: log-loss o pérdida exponencial (AdaBoost).
Regresión: L2, L1 o Huber.

Shrinkage (η), sub-muestreo (subsample) y restricciones del árbol base controlan el sobre-ajuste.

learning_rate (η)

0.01–0.3 típico.

n_estimators (M)

Iteraciones/árboles totales.

max_depth

Profundidad del árbol base (3–6 recomendado).

subsample

Fracción de muestras por iteración (0.5–1).

5. Demo Interactiva — Dinámica de Error

Train Error: 0.120 | Val Error: 0.145

*Valores sintéticos para ilustrar la convergencia y el sobre-ajuste.

6. Ventajas & Limitaciones

✅ Ventajas

  • Bajo sesgo, alta precisión.
  • Soporta pérdidas personalizadas.
  • Regularización flexible (η, subsample).
  • Manejo de variables mixtas y faltantes (implementaciones modernas).

⚠️ Limitaciones

  • Entrenamiento más lento que Random Forest.
  • Sensible a la configuración de hiperparámetros.
  • Riesgo de sobre-ajuste con η grande y M alto.
  • Difícil paralelizar la etapa de entrenamiento puro (salvo variantes como XGBoost, LightGBM).

7. Aplicaciones Prácticas

```