1. Aperçu du projet
Netflix fait face à un taux de désabonnement persistant qui érode les revenus récurrents et limite les opportunités de vente additionnelle. Dans un marché du streaming hautement concurrentiel avec des coûts d’acquisition croissants et une fatigue de l’abonnement, fidéliser les abonnés existants s’avère plus rentable que d’en acquérir constamment de nouveaux.
Ce projet analyse le jeu de données Netflix User Behavior Dataset 2025 pour identifier les facteurs comportementaux de désabonnement, construire un modèle de prédiction et fournir des recommandations concrètes afin de réduire les annulations.
2. Objectifs
- Développer un modèle de prédiction du désabonnement malgré un déséquilibre significatif des classes (85% actifs, 15% désabonnés).
- Identifier les facteurs comportementaux de rétention versus le facteurs de départ.
- Fournir des recommandations concrètes pour améliorer le ROI de la rétention.
3. Résultats clés
- Distribution du churn : 85% actifs, 15% désabonnés.
- Les débuts sont risqués : la plupart des désabonnements se produisent dans les 90 premiers jours.
- L’engagement génère la fidélité : un temps de visionnage élevé et des taux de complétion élevés réduisent fortement le risque de désabonnement.
- La découverte compte : les utilisateurs qui cherchent activement du contenu et cliquent sur les recommandations sont plus susceptibles de rester.
- La satisfaction prédit le churn : les notes faibles et les avis négatifs précèdent souvent les annulations.
- Les attributs statiques sont de faibles prédicteurs : les données démographiques et les types d’abonnement ont peu d’impact comparé au comportement.
4. Résultats de modélisation
Nous avons comparé quatre modèles en utilisant PR AUC comme métrique principale (en raison du déséquilibre des classes).
Interprétation :
- Random Forest a obtenu le PR AUC le plus élevé (0,241), surpassant légèrement la régression logistique.
- XGBoost a sous-performé en PR AUC mais a montré un compromis rappel/précision plus équilibré.
- Dans l’ensemble, tous les modèles restent proches de la baseline, soulignant le besoin de caractéristiques temporelles plus riches avant que les prédictions puissent avoir un impact commercial.
5. Recommandations
- Renforcer l’onboarding : Offrir des packs de démarrage personnalisés, des rappels pour finir les séries et mettre en avant les fonctionnalités de recommandation durant les 90 premiers jours, lorsque le risque de désabonnement est le plus élevé.
- Surveiller la satisfaction : Identifier les utilisateurs qui donnent des notes faibles ou des avis négatifs et les contacter avec du contenu personnalisé ou des offres.
- Se concentrer sur les clients à forte valeur : Estimer la Customer Lifetime Value (CLV = dépense mensuelle × durée d’abonnement) et diriger les ressources de rétention vers les abonnés à forte valeur les plus à risque.
6. Travaux futurs
- Créer des caractéristiques temporelles plus riches (récence, déclin de l’engagement, périodes d’inactivité).
- Explorer l’analyse de survie pour étudier comment le risque de désabonnement évolue dans le temps.
- Valider les interventions guidées par le modèle via des tests A/B contrôlés pour mesurer l’impact réel sur la rétention et les revenus.
Ce projet fait partie du Springboard Data Science Career Track – Capstone Project 3.

