logo Ircam

Réseaux profonds pour la recommandation multi-lingues de voix par similarité

Personnes Associées: Nicolas Obin
Date of Activity: 
13/01/2017

 

Responsables : Jean-François Bonastre (LIA), Nicolas Obin (Ircam)

Lieu : LIA (Avignon)

Contexte :

La recommandation de voix consiste à trouver dans une base de données d’acteurs celui qui est le plus à même de reproduire la voix d’un acteur donné, par exemple pour le doublage des voix d’une langue à une autre. La recommandation automatique de voix d’acteurs est un sujet de recherche nouveau qui repose sur la caractérisation et l’élaboration de mesure de la similarité entre des voix expressives d’acteurs professionnels [Lindh 2010; Kelly 2016, Obin 2016]. Le défi majeur de la recommandation de voix consiste à élaborer des mesures de similarité qui soient stables par rapport à la langue, pour permettre d’opérer des recommandations entre des langues différentes. Un autre défi important consiste à pouvoir modéliser la palette vocale d’un acteur dans son ensemble, pour ne plus se limiter à une recommandation basée sur un extrait de voix court et ciblé, mais mieux prendre en compte la variabilité des voix d’acteurs indépendamment des contextes de jeu et d’interprétation.

Objectifs :

Le travail mené dans ce stage prolongera les recherches initiées à l’Ircam [Obin 2016] et consistera à répondre aux enjeux de la recommandation automatique de voix par similarité dans un contexte multi-lingue à partir de grandes bases de données d’acteurs professionnels. Les recherches viseront à :

  • -  La recommandation de voix à partir de la palette vocale d’un acteur, à partir de réseaux de neurones profonds en prolongement des travaux actuels du LIA [Morchid 2015; Janod 2016] et en s’inspirant de travaux récents pour opérer une recommandation qui se fonde sur l’ensemble de la palette vocale d’un acteur ;

  • -  L’extension du moteur de recommandation à un ensemble de langues (par exemple : anglais, français, allemand, japonais, mandarin, russe, etc...). Les travaux devront permettre de dresser un diagnostic sur la robustesse de la recommandation entre des langues différentes, et à envisager des solutions d’amélioration pour adapter la recommandation entre des langues possiblement très différentes.

    Les travaux de recherche seront menés à travers une collaboration du LIA et de l’Ircam, avec la collaboration de la société ExeQuo, spécialisée en doublage de jeux vidéos.

 

Bibliographie :

[Janod, 2016] K. Janod, M. Morchid, R. Dufour, G. Linares, G., R. De Mori (2016). “Deep Stacked Autoencoders for Spoken Language Understanding”. Interspeech San Francisco, 2016.

[Kelly, 2016] Finnian Kelly, Anil Alexander, Oscar Forth, Samuel Kent, Jonas Lindh, Joel Åkesson, Identifying perceptually similar voices with a speaker recognition system using auto-phonetic features, Interspeech, 2016.

[Lindh, 2010] Jonas Lindh and Anders Eriksson, Voice Similarity - a Comparison Between Judgements by Human Listeners and Automatic Voice Comparison, Proceedings of FONETIK, p.63-69, 2010.

[Morchid, 2013] Morchid M., Dufour R., Bouallegue M., Linarès G., Matrouf D., “LIA@MediaEval 2013 MusiClef Task: A Combined Thematic and Acoustic Approach,” MediaEval 2013.

[Obin, 2016] N. Obin, A. Roebel. ”Similarity Search of Acted Voices for Automatic Voice Casting”, IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 24, no 9, p. 1638-1647, September 2016.

Rémunération : ~550€ / mois