Regresión Logística: Conceptos Clave y Métricas de Evaluación

Clasificado en Matemáticas

Escrito el en español con un tamaño de 4,25 KB

Conceptos Clave de la Regresión Logística

Función de Enlace

  • Invertible: g:[0,1]→ R debe ser invertible tal que g-1:R→[0,1]
  • Soporte en [0,1]: g:[0,1]→R, definida para cualquier valor en [0,1]
  • Codominio real: g-1:R→[0,1], definida para todo valor real.
  • Monótona creciente: B0+B1x1+...+Bpxp cuantifica el efecto de los predictores en la probabilidad de éxito en la variable objetivo. g-1 nunca debe decrecer.

Métricas de Ajuste del Modelo

  • NULL DEVIANCE: Es la «diferencia» al comparar la log-verosimilitud del modelo perfectamente sobreajustado vs. un modelo sin parámetros (solo intercepto) D0=−2(Lβ0Lsaturado)≥0, Lmodelo=ln(P(observado|modelo))
  • RESIDUAL DEVIANCE: «Diferencia» al comparar la log-verosimilitud del modelo perfectamente sobreajustado vs. nuestro modelo D=−2(LβˆLsaturado)≥0
  • pseudoR2: 1-(D/D0)

Métricas de Evaluación de Clasificadores Binarios

  • Accuracy: Proporción de observaciones bien clasificadas: (VP+VN)/total
  • Sensitivity: Proporción de positivos reales bien clasificados: VP/(VP+FN)
  • Specificity: Proporción de negativos reales bien clasificados: VN/(VN+FP)
  • KAPPA: Concordancia (no aleatoria) entre la realidad y la predicción: k=P(a)-P(e)/1-P(e)

P(e): (VN+FN)/total + (VN*FP)/total + (FP+VP)/total + (FN+VP)/total

  • Precision: Proporción de los clasificados como positivos que realmente lo son: VP/(VP+FP)
  • FDR: Proporción de los clasificados como positivos que no lo son: FP/(VP+FP), 1-precision

pˆ = g-1(ηˆ) = 1 / (1 + e-ηˆ)

Curva ROC

La curva ROC nos permite visualizar de manera global la calidad de nuestro clasificador para cada posible decisión, es decir, visualiza la probabilidad de FP vs. VP. Representa la capacidad del modelo para distinguir entre las dos clases, a través de diferentes umbrales de decisión y se usa para elegir el umbral más óptimo y evaluar el rendimiento del modelo.

  • Si el umbral→0: casi todas las observaciones serán predichas como 1’s –> no habrá FN pero ningún negativo real será clasificado como tal –> sensibilidad tiende a 1, especificidad tiende a 0
  • Si el umbral→1: casi todas las observaciones serán predichas como 0’s –> no habrá FP pero ningún positivo real será clasificado como tal –> sensibilidad tiende a 0, especificidad tiende a 1

Técnicas de Remuestreo

Bajomuestreo

Dejamos fija la cantidad de la clase minoritaria y reducimos la cantidad de la clase mayoritaria para que haya algo parecido a un equilibrio. Seleccionamos un porcentaje aleatorio de ellas y unimos la clase minoritaria. Ventaja: los nuevos datos son una submuestra real de los datos originales. Desventaja: se reduce considerablemente el tamaño muestral.

Sobremuestreo

Dejamos fija la cantidad de la clase mayoritaria y aumentamos la cantidad de la clase minoritaria para que haya algo parecido a un equilibrio. Para ello, filtramos los individuos de la clase minoritaria, seleccionamos un porcentaje aleatorio de ellas y unimos la clase mayoritaria. Ventaja: no reducimos el tamaño muestral. Desventaja: los datos nuevos son generados artificialmente.

Entradas relacionadas: