Réseaux profonds pour la recommandation multi-lingues de voix par similarité

Réseaux profonds pour la recommandation multi-lingues de voix par similarité

Personnes Associées: Nicolas Obin

Date of Activity:

13/01/2017

Responsables : Jean-François Bonastre (LIA), Nicolas Obin (Ircam)

Lieu : LIA (Avignon)

Contexte :

La recommandation de voix consiste à trouver dans une base de données d’acteurs celui qui est le plus à même de reproduire la voix d’un acteur donné, par exemple pour le doublage des voix d’une langue à une autre. La recommandation automatique de voix d’acteurs est un sujet de recherche nouveau qui repose sur la caractérisation et l’élaboration de mesure de la similarité entre des voix expressives d’acteurs professionnels [Lindh 2010; Kelly 2016, Obin 2016]. Le défi majeur de la recommandation de voix consiste à élaborer des mesures de similarité qui soient stables par rapport à la langue, pour permettre d’opérer des recommandations entre des langues différentes. Un autre défi important consiste à pouvoir modéliser la palette vocale d’un acteur dans son ensemble, pour ne plus se limiter à une recommandation basée sur un extrait de voix court et ciblé, mais mieux prendre en compte la variabilité des voix d’acteurs indépendamment des contextes de jeu et d’interprétation.

Objectifs :

Le travail mené dans ce stage prolongera les recherches initiées à l’Ircam [Obin 2016] et consistera à répondre aux enjeux de la recommandation automatique de voix par similarité dans un contexte multi-lingue à partir de grandes bases de données d’acteurs professionnels. Les recherches viseront à :

- La recommandation de voix à partir de la palette vocale d’un acteur, à partir de réseaux de neurones profonds en prolongement des travaux actuels du LIA [Morchid 2015; Janod 2016] et en s’inspirant de travaux récents pour opérer une recommandation qui se fonde sur l’ensemble de la palette vocale d’un acteur ;
- L’extension du moteur de recommandation à un ensemble de langues (par exemple : anglais, français, allemand, japonais, mandarin, russe, etc...). Les travaux devront permettre de dresser un diagnostic sur la robustesse de la recommandation entre des langues différentes, et à envisager des solutions d’amélioration pour adapter la recommandation entre des langues possiblement très différentes.

Les travaux de recherche seront menés à travers une collaboration du LIA et de l’Ircam, avec la collaboration de la société ExeQuo, spécialisée en doublage de jeux vidéos.

Bibliographie :

[Janod, 2016] K. Janod, M. Morchid, R. Dufour, G. Linares, G., R. De Mori (2016). “Deep Stacked Autoencoders for Spoken Language Understanding”. Interspeech San Francisco, 2016.

[Kelly, 2016] Finnian Kelly, Anil Alexander, Oscar Forth, Samuel Kent, Jonas Lindh, Joel Åkesson, Identifying perceptually similar voices with a speaker recognition system using auto-phonetic features, Interspeech, 2016.

[Lindh, 2010] Jonas Lindh and Anders Eriksson, Voice Similarity - a Comparison Between Judgements by Human Listeners and Automatic Voice Comparison, Proceedings of FONETIK, p.63-69, 2010.

[Morchid, 2013] Morchid M., Dufour R., Bouallegue M., Linarès G., Matrouf D., “LIA@MediaEval 2013 MusiClef Task: A Combined Thematic and Acoustic Approach,” MediaEval 2013.

[Obin, 2016] N. Obin, A. Roebel. ”Similarity Search of Acted Voices for Automatic Voice Casting”, IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 24, no 9, p. 1638-1647, September 2016.

Rémunération : ~550€ / mois