Netflix Customer Churn: Identificación de los factores comportamentales de retención de usuarios

/ Ciencia de Datos & Storytelling / Por Éloïse Bouton

1. Descripción general del proyecto

Netflix enfrenta una cancelación persistente de clientes que erosiona los ingresos recurrentes y limita las oportunidades de venta adicional. En un mercado de streaming altamente competitivo con costos de adquisición crecientes y fatiga de suscripción, retener a los suscriptores existentes es más rentable que adquirir constantemente nuevos.

Este proyecto analiza el Netflix User Behavior Dataset 2025 para identificar los factores comportamentales de la cancelación, construir un modelo de predicción y proporcionar recomendaciones concretas para reducir las cancelaciones.

2. Objetivos

Desarrollar un modelo de predicción de cancelación a pesar del desequilibrio significativo de clases (85% activos, 15% cancelados).
Identificar los factores comportamentales de retención versus abandono.
Proporcionar recomendaciones concretas para mejorar el ROI de la retención.

3. Hallazgos clave

Distribución del churn: 85% activos, 15% cancelados.
Los inicios son arriesgados: la mayoría de las cancelaciones ocurren dentro de los primeros 90 días.
El engagement genera lealtad: un alto tiempo de visualización y tasas de finalización reducen fuertemente el riesgo de cancelación.
El descubrimiento importa: los usuarios que buscan activamente contenido y hacen clic en las recomendaciones tienen más probabilidades de quedarse.
La satisfacción predice el churn: las calificaciones bajas y las reseñas negativas a menudo preceden a las cancelaciones.
Los atributos estáticos son predictores débiles: los datos demográficos y los tipos de plan tienen poco impacto en comparación con el comportamiento.

4. Resultados del modelado

Comparamos cuatro modelos utilizando PR AUC como métrica principal (debido al desequilibrio de clases).

Interpretación:

Random Forest obtuvo el PR AUC más alto (0,241), superando ligeramente a la regresión logística.
XGBoost tuvo un rendimiento inferior en PR AUC pero mostró un equilibrio más balanceado entre recall/precisión.
En general, todos los modelos permanecen cerca de la baseline, destacando la necesidad de características temporales más ricas antes de que las predicciones puedan impulsar el impacto empresarial.

5. Recomendaciones

Fortalecer la incorporación: Ofrecer paquetes de inicio personalizados, recordatorios para terminar series y destacar las funciones de recomendación durante los primeros 90 días, cuando el riesgo de cancelación es más alto.
Monitorear la satisfacción: Identificar usuarios que dan calificaciones bajas o reseñas negativas y contactarlos con contenido personalizado u ofertas.
Enfocarse en clientes de alto valor: Estimar el Customer Lifetime Value (CLV = gasto mensual × duración de suscripción) y dirigir recursos de retención hacia suscriptores de alto valor con mayor riesgo.

6. Trabajo futuro

Crear características temporales más ricas (recencia, declive de engagement, períodos de inactividad).
Explorar análisis de supervivencia para estudiar cómo evoluciona el riesgo de cancelación con el tiempo.
Validar intervenciones guiadas por el modelo a través de pruebas A/B controladas para medir el impacto real en la retención y los ingresos.

Este proyecto es parte del Springboard Data Science Career Track – Capstone Project 3.

DESCARGAr