Ingénieur / Ingénieure d'intégration applicative (H/F)

Postuler à cette offre Partager cette offre

Offre publiée le 17/02/2025

💼 Offre d'emploi

Type de contrat: Contrat à durée déterminée - 12 Mois
Durée de travail
Expérience: Débutant accepté
Salaire
Permis demandé: Aucune information

📍 Entreprise

Aucun logo fourni

Employeur: Non renseigné

Lieu de travail

75 - PARIS 05 (Code postal 75005) Voir sur une carte

Description de l'offre

Mission :
L'équipe travaille sur de grands ensembles de données (actuellement ~5T, et on estime qu'ils vont doubler), qui sont de très longs enregistrements audio (d'environ 16 heures chacun) et des métadonnées. Les enregistrements sont recueillis grâce à des appareils que les enfants portent, dans leur environnement habituel, pour des journées entières. Ces enregistrements captent une grande diversité de sons: les vocalisations des enfants (pleurs, rires, babillages, conversations) et celles des adultes qui les entourent mais aussi une grande quantité de bruits. Nous disposons de données pour plus de 1 000 enfants dans leurs familles, apprenant une ou plusieurs de plus de 15 langues, et grandissant sur les 5 continents. Nous ré-utilisons également d'autres jeux de données tels que CHILDES (childes.talkbank.org) et des corpus de transcription + audio multilingues (par exemple, la bible).
Les principales missions du candidat retenu seront de collaborer à la création d'un code robuste et bien documenté pour réaliser les tâches suivantes de manière transparente et reproductible : 1) nettoyer les ensembles de données de parole(+texte), assurer leur protection et sauvegarde, et les convertir dans notre format de prédilection (ChildProject https://childproject.readthedocs.io/en/latest/) ; 2) en utilisant notre structure préférée d'imbrication avec datalad (https://handbook.datalad.org/en/latest/basics/101-106-nesting.html), réaliser des expériences de modélisation reliant le texte à l'audio (par exemple, calculer l'entropie sur la base d'analyses n-gram de transcriptions de la parole dans un audio donné et les comparer aux caractéristiques de wav2vec ou similaires sur l'audio).
Le candidat retenu rejoindra une équipe comprenant notamment un gestionnaire de données/ingénieur logiciel, qui est chargé d'organiser les différents ensembles de données sur le cluster et sur des dépôts scientifiques (avec bash/python ; exemple de dépôt : https://gin.g-node.org/) et de maintenir un outil d'organisation des données open-source sur github (https://childproject.readthedocs.io/en/latest/) ; ainsi qu'un ingénieur en apprentissage automatique, qui est chargé du développement des outils ML. L'équipe est fortement collaborative, il est donc important d'avoir des compétences en communication et d'être ouvert à la discussion avec d'autres personnes (étudiants, chercheurs postdoctoraux, etc.), tant pour donner que pour recevoir des commentaires constructifs.
Il existe de nombreuses possibilités d'élargir les compétences (par exemple, l'utilisation avancée de github, le versioning, la création de conteneurs comme docker, la gestion, la rédaction, etc. Il y aura également quelques opportunités de contribuer à la rédaction d'articles scientifiques, bien que cela ne soit pas obligatoire. Un mentorat régulier est utilisé pour aider les membres de l'équipe à clarifier leurs objectifs de carrière et à prendre des mesures pour les atteindre.

Activités :
- Nettoyer et dépanner les ensembles de données (signaler les bogues/erreurs dans les annotations ou les métadonnées, et aider à les corriger), en les convertissant au format ChildProject.
- Collaborer avec des équipes de recherche à l'international pour acquérir de manière sécurisée de nouveaux datasets et fournir des analyses en retour.
- Lancer et veiller aux analyses automatiques.
- Vérifier et organiser des annotations automatiques et humaines, en les intégrant aux ensembles de données.
- Créer un code reproductible pour les analyses, en utilisant le format préféré de l'équipe (imbrication dans datalad).
- Contribuer au débogage du code créé par l'équipe, en améliorant les pratiques de codage, notamment par le biais de la révision du code.
- Interagir avec les autres membres de l'équipe qui développent du code pour l'apprentissage supervisé et non supervisé (optionnel).
- Contribuer au recrutement de stagiaires.
- Contribuer éventuellement à la rédaction d'articles scientifiques pour des revues ou des conférences.

Postuler à cette offre Partager cette offre

Identifiant de cette offre d'emploi sur France Travail : 2351130

Libellé ROME de l'offre d'emploi : Cartographe (Code ROME : M1808)

Autre appellation de l'offre : Opérateur / Opératrice géographe

Offre d'emploi et contenus récupérés en partenariat avec France Travail. Cojob n'est pas responsable des informations fournies.

💼 Offre d'emploi

📍 Entreprise

Description de l'offre

Offres d'emploi similaires

Partagez cette offre !