Léopold MDT

Hackathon – Prédiction de la note d’un intervenant

Modèle de machine learning basé sur l’analyse automatique de CV – Station F, Paris

Organisateur Educentre
Lieu Station F, Paris
Cadre Hackathon
Python Machine Learning NLP TF-IDF BigQuery Data Science
← Retour au portfolio

Vue d'ensemble

Hackathon IA Station F

Ce projet a été réalisé dans le cadre d’un hackathon organisé par Educentre à Station F. L’objectif était de développer un modèle de machine learning capable d’estimer la note d’un intervenant à partir de son CV, en s’appuyant sur des techniques de traitement du langage naturel (NLP).

La solution vise à aider à la sélection et à l’évaluation d’intervenants en automatisant l’analyse de profils, tout en garantissant une approche objective et basée sur les données.

Contexte et défis

Contexte

Educentre disposait de données hétérogènes sur les intervenants (CV, notes historiques, informations textuelles). L’enjeu était de transformer ces données non structurées en variables exploitables par un modèle prédictif.

Défis principaux

  • Traitement automatique de CV non structurés
  • Nettoyage et vectorisation de texte
  • Choix d’un modèle pertinent en temps limité
  • Gestion et centralisation des données sur BigQuery
  • Automatisation de la collecte de CV

Solution mise en œuvre

J’ai contribué au développement d’une solution complète, de la collecte des données jusqu’au modèle prédictif :

Pipeline data & IA

  • Scraping automatisé de CV via Python
  • Stockage et gestion des données sur BigQuery
  • Préparation et nettoyage des données avec pandas
  • Vectorisation des textes avec TF-IDF

Machine Learning

  • Construction de features textuelles
  • Entraînement d’un modèle de prédiction de note
  • Évaluation des performances du modèle
  • Interprétation des résultats

Résultats et apprentissages

NLP
Analyse de CV automatisée
ML
Modèle prédictif fonctionnel
BQ
Centralisation des données
Hackathon
Travail en équipe & contraintes temps

Ce projet m’a permis de renforcer mes compétences en NLP, en machine learning et en data engineering, tout en travaillant dans un contexte réel, collaboratif et sous forte contrainte de temps.

Technologies et compétences

Outils techniques

  • Python (pandas, scikit-learn)
  • TF-IDF pour la vectorisation de texte
  • Google BigQuery
  • Web scraping automatisé

Compétences développées

  • Traitement du langage naturel (NLP)
  • Machine Learning appliqué
  • Data preparation & feature engineering
  • Travail en équipe en environnement hackathon

Envie d’en savoir plus ?

Le projet est disponible sur mon portfolio et GitHub. Je serais ravi d’échanger sur ce hackathon ou sur des projets similaires en data et IA.

Me contacter Voir d'autres projets