Chapitre 39. Construire son portfolio de Data Scientist - 3 projets pour convaincre un recruteur

Votre portfolio est plus important que votre CV. Un CV liste ce que vous dites savoir faire ; un portfolio prouve ce que vous savez faire. C'est la preuve tangible de vos compétences, de votre curiosité et de votre capacité à mener un projet de A à Z. Apprenons à construire un portfolio qui raconte une histoire et qui impressionne les recruteurs, en le structurant autour de trois projets clés.

Les ingrédients d'un portfolio réussi

Un projet mémorable n'est pas forcément le plus complexe. Il doit combiner quatre éléments qui racontent l'histoire de votre compétence.

1. Une question claire et pertinente

Un projet doit partir d'un "pourquoi". Cela montre que vous ne vous contentez pas d'appliquer des algorithmes, mais que vous réfléchissez à l'impact de votre travail.

  • Mauvais exemple : "Analyse du dataset Iris".
  • Bon exemple : "Peut-on identifier une espèce de fleur à partir de ses dimensions ? Application à la classification automatisée pour les botanistes."
  • Pourquoi c'est mieux : La deuxième approche montre un objectif, une application potentielle et une compréhension du problème métier ou scientifique.

2. Des données qui suscitent l'intérêt

Les recruteurs ont vu des centaines de projets sur le Titanic ou le dataset Iris. Pour vous démarquer, montrez votre curiosité et votre capacité à trouver et à manipuler des données uniques.

  • Où trouver des données ? Explorez les portails de données ouvertes (ex: data.gouv.fr), utilisez les API de services que vous aimez (Spotify, Twitter/X, jeux vidéo), ou apprenez les bases du web scraping (avec des librairies comme BeautifulSoup ou Scrapy) pour collecter vos propres données (toujours en respectant les conditions d'utilisation des sites !).
  • L'impact : Un projet sur l'analyse des paroles de votre artiste préféré ou sur les statistiques de votre jeu vidéo fétiche montrera non seulement vos compétences techniques, mais aussi votre passion et votre créativité.

3. Une analyse solide et justifiée

C'est le cœur de votre projet. Chaque choix technique doit être intentionnel et expliqué. Un recruteur ne veut pas seulement voir le résultat, il veut comprendre votre raisonnement.

  • Justifiez vos choix : "Les données de fraude étant très déséquilibrées (99% de transactions non frauduleuses), l'accuracy n'est pas une bonne métrique. J'ai donc choisi d'optimiser l'AUC-PR (Area Under the Precision-Recall Curve) qui est plus robuste dans ce cas."
  • Montrez votre rigueur : Expliquez comment vous avez géré les valeurs manquantes, pourquoi vous avez créé telle ou telle nouvelle feature, et comment vous avez validé votre modèle (validation croisée, etc.).

4. Une communication efficace (le Storytelling)

Votre projet peut être techniquement parfait, s'il n'est pas bien communiqué, son impact sera nul. Le README de votre projet sur GitHub est votre scène.

  • Structurez votre pensée : Commencez par le problème, présentez votre solution, montrez les résultats clés (avec des visualisations claires et bien légendées), et terminez par une conclusion actionnable.
  • Un graphique vaut mille mots : Ne noyez pas le lecteur sous des lignes de code. Mettez en avant les 2 ou 3 visualisations qui racontent l'essentiel de votre histoire. Le titre d'un graphique doit être une conclusion ("Le prix au m² est 30% plus élevé dans le centre-ville"), pas une description ("Graphique du prix en fonction du quartier").

Où héberger et présenter votre travail ?

La réponse unanime est GitHub. C'est bien plus qu'un simple espace de stockage de code. C'est la vitrine de votre savoir-faire technique.

  • Un profil professionnel : Utilisez une photo claire, rédigez une biographie concise qui mentionne vos compétences clés ("Data Scientist passionné par le NLP et les séries temporelles") et ajoutez un lien vers votre profil LinkedIn.
  • Épinglez vos meilleurs projets : GitHub vous permet de mettre en avant jusqu'à six dépôts sur votre page de profil. Choisissez vos 2 ou 3 projets les plus aboutis pour qu'ils soient immédiatement visibles.
  • Le README est roi : Comme mentionné ci-dessus, le fichier `README.md` de chaque projet est crucial. C'est la première chose qu'un recruteur lira. Soignez-le !

Anatomie de 3 projets convaincants

Voici la structure de trois types de projets qui, ensemble, forment un portfolio complet et impressionnant.

1. Le projet d'analyse exploratoire et de storytelling

Ce projet montre que vous savez transformer des données brutes en insights clairs et actionnables.

Exemple : Analyser les données des Airbnb d'une ville pour comprendre les facteurs qui influencent le prix et la popularité.

Compétences démontrées : Manipulation de données (Pandas), visualisation (Seaborn), storytelling, capacité à tirer des conclusions business.

Structure du README.md :
- Contexte : Pourquoi cette analyse est-elle intéressante pour un hôte ou un voyageur ?
- Questions Clés : Listez 3-4 questions précises (ex: "Quel quartier offre le meilleur rapport qualité/prix ?", "Quels sont les équipements qui influencent le plus le prix ?").
- Découvertes Principales : Présentez vos 3-4 graphiques les plus parlants, chacun avec un titre qui est une conclusion, pas une description.
- Conclusion et Recommandations : Résumez vos découvertes et donnez des conseils concrets.
                        

2. Le projet de Machine Learning de A à Z

Ce projet prouve que vous maîtrisez tout le workflow technique de la data science.

Exemple : Prédire le taux de désabonnement ("churn") d'un service en ligne.

Compétences démontrées : Nettoyage, feature engineering, modélisation (tester plusieurs algorithmes), évaluation rigoureuse, interprétation du modèle.

Structure du README.md :
- Objectif Business : Quel problème concret cherchez-vous à résoudre ? (ex: "Réduire la perte de clients en identifiant les clients à risque en amont").
- Méthodologie : Décrivez brièvement les étapes : nettoyage, features créées, modèles testés, métrique d'évaluation choisie (et pourquoi, ex: "J'ai choisi le Rappel car il est plus grave de manquer un client sur le point de partir").
- Résultats : Quel score final avez-vous obtenu ? Présentez une matrice de confusion et, surtout, un graphique d'importance des features.
- Conclusion : Quels sont les 3 facteurs qui influencent le plus le churn ? Comment l'entreprise peut-elle agir sur ces facteurs ?
                        

3. Le projet "produit" : API ou Application Web

Ce projet montre que vous pensez au-delà du notebook et que vous savez rendre votre travail utilisable par d'autres.

Exemple : L'application Flask que nous avons construite pour prédire l'espèce d'une fleur d'iris.

Compétences démontrées : Déploiement, ingénierie logicielle (Flask, Docker), capacité à transformer un modèle en un produit.

Structure du README.md :
- Description : Que fait cette API/application ?
- Technologies utilisées : Listez les outils (Python, Flask, Scikit-learn, Docker...).
- Instructions d'installation et d'utilisation : Expliquez très clairement comment un utilisateur peut lancer votre application localement. Avec Docker, cela peut se résumer à deux lignes de commande !
- Exemple d'appel à l'API : Montrez un exemple de requête (avec curl ou un script Python) et la réponse attendue.
                        
[Image d'un profil GitHub bien organisé]

Challenge : Posez votre première brique !

Il est temps de poser la première brique de votre portfolio professionnel.

Votre mission :

  • Choisissez UN des projets que vous avez réalisés au cours de cette série (le Titanic, la prédiction des prix, le classifieur de spam...).
  • Créez un nouveau dépôt sur GitHub pour ce projet.
  • Nettoyez votre notebook : supprimez les cellules de code inutiles, ajoutez des cellules Markdown pour expliquer votre démarche, et assurez-vous qu'il peut être exécuté de haut en bas sans erreur.
  • Rédigez un nouveau fichier README.md pour celui-ci en suivant la structure la plus appropriée parmi les trois exemples ci-dessus. Soyez clair, concis et professionnel.

Testez vos connaissances !

1. Quel est l'élément le plus important d'un portfolio de data scientist ?

2. Quel type de projet démontre le mieux votre capacité à communiquer des résultats ?

3. Pourquoi est-il recommandé d'utiliser des données originales ou de niche pour un projet ?

4. Un projet "produit" (API/App) est précieux car il montre que vous pouvez...

5. Quelle est la plateforme standard pour héberger un portfolio de code ?

Questions pour aller plus loin

1. Qualité vs Quantité : Vaut-il mieux avoir 10 projets moyens ou 3 projets exceptionnels et très bien documentés dans son portfolio ? Pourquoi ?

2. Raconter une histoire : Comment pourriez-vous lier vos trois projets pour qu'ils racontent une histoire cohérente sur vous en tant que data scientist (par exemple, en montrant une progression dans la complexité ou en se concentrant sur un domaine que vous aimez) ?

3. L'échec est une option : Un projet qui aboutit à la conclusion que les données ne permettent pas de prédire la cible peut-il être un bon projet de portfolio ? À quelles conditions ?