Conversion de L’identité de la Voix Chantée

Conversion de L’identité de la Voix Chantée

Lieu : IRCAM – Analyse et Synthèse des Sons
Responsables : Nicolas Obin, Axel Roebel (IRCAM - Analyse et Synthèses des Sons)

Contexte :

La conversion de l’identité de la voix consiste à modifier les caractéristiques d’une voix « source » pour reproduire les caractéristiques d’une voix « cible » à imiter, à partir d’une collection d’exemples de la voix « cible ». Aujourd’hui, la conversion d’identité de la voix basée sur la concaténation d’unités d’enveloppes spectrales permet de réaliser des conversions de haute qualité [Dutoit, 2007; Wu, 2013; Huber 2015]. Notamment, le système de conversion d’identité développé à l’Ircam a été exploité dans des projets de production professionnelle pour recréer des voix de personnalités historiques: le maréchal Pétain dans le documentaire « Juger Pétain » en 2012, et Louis de Funès dans le film « Pourquoi j’ai pas mangé mon père » de Jamel Debbouze en 2015.

Le stage s’appuiera sur les connaissances actuelles en analyse/synthèse de la voix et en conversion d’identité de la voix de l’équipe Analyse et Synthèse des Sons à l’Ircam.

Objectifs :

Le travail effectué dans ce stage concernera l’extension du système de conversion d’identité originellement développé pour la voix parlée à la voix chantée [Villavicencio, 2010]. Il comprendra l’amélioration du moteur de conversion d’identité et l’intégration des spécificités de la voix chantée, comme par exemple :

- Représentation de l’espace acoustique de la voix chantée dans l’espace des phonèmes, hauteur, durée, intensité, etc...
- Représentation de la source glottique des voix source et cible et amélioration de la conversion de la « qualité vocale » (voix rauque, soufflée, etc..)
- Automatisation de la conversion de l’identité de la voix pour son exploitation dans un contexte professionnel avec le minimum d’intervention humaine requise ;

Les problèmes abordés pendant le stage seront sélectionnés en début du stage après une phase d’orientation et une étude bibliographique. Les solutions réalisées au cours du stage seront intégrées au système de conversion d’identité de la voix de l’Ircam, avec possibilité d’exploitation industrielle et professionnelle.

Bibliographie :

[Dutoit, 2007] T. Dutoit, et al. Towards a Voice Conversion System based on Frame Selection. IEEE International Conference Acoustics, Speech and Signal Processing (ICASSP).

[Huber 2015] S. Huber, “Voice Conversion by modelling and transformation of extended voice characteristics”, Thèse Université Pierre et Marie Curie (Paris VI), 2015.

[Villavicencio, 2010] Fernando Villavicencio, Jordi Bonada,. ”Applying voice conversion to concatenative singing-voice synthesis”. Interspeech, 2010.

[Wu, 2013] Z. Wu, T. Virtanen, T. Kinnunen, Eng Siong Chng, Haizhou Li. ”Exemplar- based Unit Selection for Voice Conversion utilizing Temporal Information”. Interspeech 2013.

Rémunération : ~550€ / mois + avantages sociaux