Diversité et inclusion dans les technologies vocales

Deep Voice, Paris est l’événement parisien dédié à la voix et à l’intelligence artificielle dont l’objectif est de réunir expertises scientifique et technique, innovation et entrepreneuriat. La diversité et l’inclusion sera à l’honneur de cette deuxième édition, pour échanger et débattre sur la présence des langues rares, des langues peu dotées, de la langue des signes, des dialectes et des accents, des biais et des discriminations dans les technologies vocales. Des ateliers techniques - “hands-on” - seront proposés aux participants pour développer leurs compétences dans les domaines du traitement de la parole et du langage naturel.

Des moments de rencontres et de réseautage en fin de journée faciliteront les rencontres et l’échange entre les participants en toute décontraction.

Accès sur inscription : https://deepvoiceparis.sciencesconf.org/

Programme :

Mercredi 15 juin (14h-17h, lieu : SCAI)

Remote access: https://us02web.zoom.us/j/82384721778?pwd=VVJweE5Gclc2a3FBbXhmUk5UOWZMUT09

- 14h00-14h15, Mot d’introduction, Nicolas Obin, STMS (Ircam, Sorbonne Université, CNRS, Ministère de la culture) et Xavier Fresquet, Sorbonne Center for Artificial Intelligence, Sorbonne Université

- 14h15-15h30, Keynote “Histoire des technologies vocales, évolutions actuelles et perspectives” Intervenant : Luc Julia, Renault. Animateur : Nicolas OBIN, STMS (Ircam, Sorbonne Université, CNRS, Ministère de la culture)

- 15h30-17h00, Discussion (en anglais) : “Quoi ma voix, qu’est-ce qu’elle a comme genre ?”

Intervenants : Emil Asmussen, Creative Director of Meet Q, The World’s First Genderless Voice ; Melissa A. Barkat-Defradas, Institut des Sciences de l'Evolution ; Giulia Perugia, Eindhoven University of Technology (TU/e) – Eindhoven (Netherlands). Animateur/animatrice : Victor Rosi (Ircam) ; Sylvie Saget (Université de Gothenburg, en présence)

- Soirée 1, 17h-18h30 : Réception au SCAI, soirée rencontres et réseautage

Jeudi 16 juin (10h-13h lieu : SCAI, puis 14h-17h, lieu : IRCAM)

Remote access (afternoon): https://us06web.zoom.us/j/88696543449?pwd=RkNJL2xITUUxcEYwSGpwSEpVUTM4QT09

- Atelier #1: Hands-on speech-to-text with neural networks. Intervenants : Yann Teytaut et Clément Le Moine Veillon, STMS (Ircam, Sorbonne Université, CNRS, Ministère de la culture)

- 14h-16h00, Session langue des signes + performance SLAM. Intervenants : Agnès Vourc'h, Université Paris Nanterre ; Michael Filhol, LISN ; Djenebou Bathily, Université Vincennes - Saint-Denis

16h00-17h30, Discussion (en anglais) : Diversité des langues dans le monde numérique

Résumé : Quelle représentation des langues minoritaires dans les technologies vocales? Comment la technologie peut-elle aider à préserver les langues et les cultures ?

Intervenants : Laurent Besacier, Naver Labs Europe ; Victoria Khurshudyan, INALCO ; Esther Klabbers, ReadSpeaker ; Gabriel Habayeb, Mozilla Common Voice. Animateur : Nicolas Obin, STMS lab (Ircam, Sorbonne Université, CNRS, Ministère de la culture)

Soirée 2 : TBA (to be announced)

Vendredi 17 juin (10h-13h lieu : SCAI, puis 14h-17h, lieu : IRCAM)

Remote access (afternoon): https://us06web.zoom.us/j/83907662307?pwd=QVRIRno5STZNMXdEOThVa1VvZkFiZz09

- Atelier #2 : Hands-on CamemBERT. Intervenants : Benjamin Muller ; Roman Castagne ; Nathan Godey - (INRIA, Paris)

- 14h-15h30, Discussion : Le biais est dans le texte ? Intervenants : Eric de la Clergerie, Inria ; Aurélie Névéol, Université Paris-Saclay ; Djamé Seddah, Sorbonne Université. Animatrice : Laure Soulier, Sorbonne Université

- 15h30-17h00 Table ronde (en anglais) : diversité dialectale et accentuelle dans les technologies vocales. Intervenants : Mathieu Avanzi, Sorbonne Université ; Sanchit Gandhi, Hugging Face ; Maxim Serebryakov, SANAS. Animateur : Carl Robinson (Rumble studio)

- 17h00-17h15, Mot de conclusion, Nicolas Obin, STMS (Ircam, Sorbonne Université, CNRS, Ministère de la culture) et Xavier Fresquet, Sorbonne Université, SCAI

Les organisateurs :

Nicolas OBIN, STMS (IRCAM, Sorbonne Université, CNRS, Ministère de la culture)
Xavier FRESQUET, SCAI (Sorbonne Center for Artificial Intelligence, Sorbonne Université)

English version :

Diversity and inclusion in voice technologies

Deep Voice, Paris is the Parisian event dedicated to voice and artificial intelligence. Its objective is to bring together scientific and technical expertise, innovation and entrepreneurship. For this second edition, keynotes, discussions and roundtables will follow one another to address diversity and inclusion in voice technologies: rare languages, poorly endowed languages, sign language, dialects, bias and discrimination.

Technical workshops - "hands-on" - will be offered to participants to develop their skills in the fields of speech processing and natural language.

Registration: https://deepvoiceparis.sciencesconf.org/

Organizers:

Nicolas OBIN, STMS (Ircam, Sorbonne Université, CNRS, Ministère de la culture)
Xavier FRESQUET, SCAI (Sorbonne Center for Artificial Intelligence, Sorbonne Université)

Speakers :

Emil Asmussen, creative director of the Q project
Mathieu Avanzi, Sorbonne Université
Djenebou Bathily, Université Vincennes - Saint-Denis
Mélissa Barkat Defradas, Institut des Sciences de l'Evolution, Montpellier
Laurent Besacier, Naver Labs Europe
Roman Castagne, INRIA
Eric de la Clergerie, Inria
Michael Filhol, LISN
Xavier Fresquet, SCAI
Sanchit Gandhi, Hugging Face
Nathan Godey, INRIA
Gabriel Habayeb, Mozilla Common Voice
Luc Julia, Renault
Victoria Khurshudyan, INALCO
Esther Klabbers, ReadSpeaker
Clément Le Moine Veillon, STMS lab
Benjamin Muller, INRIA
Aurélie Névéol, Université Paris-Saclay
Nicolas Obin, IRCAM
Giulia Perugia, Eindhoven University of Technology (TU/e)
Carl Robinson, Rumble studio
Victor Rosi, STMS lab
Sylvie Saget, Université de Gothenburg
Djamé Seddah, Sorbonne Université
Maxim Serebryakov, SANAS
Laure Soulier, Sorbonne Université
Yann Teytaut, STMS lab
Agnès Vourc'h, Université Paris Nanterre