logo Ircam

Conversion de L’identité de la Voix Chantée

Associated People: Axel Roebel, Nicolas Obin
Date of Activity: 
06/01/2017

 Lieu : IRCAM – Analyse et Synthèse des Sons
Responsables : Nicolas Obin, Axel Roebel (IRCAM - Analyse et Synthèses des Sons)


Contexte :

La conversion de l’identité de la voix consiste à modifier les caractéristiques d’une voix « source » pour reproduire les caractéristiques d’une voix « cible » à imiter, à partir d’une collection d’exemples de la voix « cible ». Aujourd’hui, la conversion d’identité de la voix basée sur la concaténation d’unités d’enveloppes spectrales permet de réaliser des conversions de haute qualité [Dutoit, 2007; Wu, 2013; Huber 2015]. Notamment, le système de conversion d’identité développé à l’Ircam a été exploité dans des projets de production professionnelle pour recréer des voix de personnalités historiques: le maréchal Pétain dans le documentaire « Juger Pétain » en 2012, et Louis de Funès dans le film « Pourquoi j’ai pas mangé mon père » de Jamel Debbouze en 2015.

Le stage s’appuiera sur les connaissances actuelles en analyse/synthèse de la voix et en conversion d’identité de la voix de l’équipe Analyse et Synthèse des Sons à l’Ircam.

Objectifs :

Le travail effectué dans ce stage concernera l’extension du système de conversion d’identité originellement développé pour la voix parlée à la voix chantée [Villavicencio, 2010]. Il comprendra l’amélioration du moteur de conversion d’identité et l’intégration des spécificités de la voix chantée, comme par exemple :

  • -  Représentation de l’espace acoustique de la voix chantée dans l’espace des phonèmes, hauteur, durée, intensité, etc...

  • -  Représentation de la source glottique des voix source et cible et amélioration de la conversion de la « qualité vocale » (voix rauque, soufflée, etc..)

  • -  Automatisation de la conversion de l’identité de la voix pour son exploitation dans un contexte professionnel avec le minimum d’intervention humaine requise ;

    Les problèmes abordés pendant le stage seront sélectionnés en début du stage après une phase d’orientation et une étude bibliographique. Les solutions réalisées au cours du stage seront intégrées au système de conversion d’identité de la voix de l’Ircam, avec possibilité d’exploitation industrielle et professionnelle.

    Bibliographie :

    [Dutoit, 2007] T. Dutoit, et al. Towards a Voice Conversion System based on Frame Selection. IEEE International Conference Acoustics, Speech and Signal Processing (ICASSP).

    [Huber 2015] S. Huber, “Voice Conversion by modelling and transformation of extended voice characteristics”, Thèse Université Pierre et Marie Curie (Paris VI), 2015.

 

[Villavicencio, 2010] Fernando Villavicencio, Jordi Bonada,. ”Applying voice conversion to concatenative singing-voice synthesis”. Interspeech, 2010.

[Wu, 2013] Z. Wu, T. Virtanen, T. Kinnunen, Eng Siong Chng, Haizhou Li. ”Exemplar- based Unit Selection for Voice Conversion utilizing Temporal Information”. Interspeech 2013.

Rémunération : ~550€ / mois + avantages sociaux