Description du poste
Intitulé du posteAssistant ou Assistante de rechercheType de contratDurée déterminéeEntité de rattachementFondée en 1872, Sciences Po est une université internationale de référence en sciences humaines et sociales, offrant un enseignement pluridisciplinaire. Elle compte 7 campus, 8 écoles et 11 centres de recherche, avec une communauté de 15 000 étudiants, 1 200 salariés, 280 chercheurs et 4 500 chargés d’enseignement.Description de la missionLe ou la Data Scientist recruté·e interviendra dans le cadre du troisième volet du projet ANR FAIRwDDI : Upscaling metadata using AI. L’objectif est de concevoir un protocole automatisé de curation de métadonnées reposant sur des techniques de traitement automatique du langage naturel (NLP) et d’apprentissage machine pour améliorer l’interopérabilité des données d’enquête.ResponsabilitésDévelopper un protocole de curation automatisée de métadonnées XML DDI basé sur le NLP et/ou l’apprentissage machine.Réaliser une analyse de l’état des métadonnées du CDSP et des partenaires (FSD, INSERM), identifier les écarts et proposer des règles d’harmonisation.Contribuer à la modélisation, méta-modélisation et appariement de schémas de métadonnées du CDSP et des partenaires.Concevoir et implémenter des règles semi-automatiques de correspondance entre structures de données.Produire des visualisations de l’information (ex. : graphe de connaissances) pour représenter les liens entre métadonnées.Participer à l’intégration du protocole dans l’outil ReQuest, en collaboration avec les membres de l’équipe Projets numériques du CDSP.Documenter les méthodes et procédures mises en place dans une logique de transparence et de réutilisabilité.Présenter les résultats en français et en anglais dans des événements scientifiques, ateliers et réunions de projets.CompétencesExpérience en traitement automatique du langage naturel (NLP). Maîtrise des modèles de référence comme BERT et ses dérivés est un atout.Maîtrise des outils de gestion de versions (Git, GitLab) pour le travail collaboratif.Maîtrise des outils de traitement et de visualisation de données avec Python (Pandas, spaCy, scikit-learn, networkx).Connaissance en modélisation de données, interopérabilité ou appariement de schémas.Sensibilité aux standards et formats de métadonnées (ex. : DDI, RDF, XML).Capacité de communication écrite et orale en français (C1) et en anglais (B2).Savoirs comportementauxAutonomie, rigueur et esprit d’équipe dans un environnement collaboratif.Bac+5 (Master, école d’ingénieur ou équivalent) en science des données, humanités numériques, informatique ou disciplines connexes.Débutants acceptés.Un intérêt pour les sciences sociales ou les données d’enquête est un atout.Procédure de recrutementUn CV et une lettre de motivation sont obligatoires pour rendre la candidature valide. Les entretiens auront lieu avec Lucie Marie (Cheffe de projet Données, Responsable du WP3 de FAIRwDDI), Alina Danciu (Responsable de l’équipe Documentation‑Diffusion) et Mahendra Paipuri (Responsable de l’équipe Projets Numériques).
#J-18808-Ljbffr