logo Ircam

Conversion de l’émotion de la voix par réseaux de neurone récurrents

Personnes Associées: Nicolas Obin
Date of Activity: 
03/11/2017

Titre : Conversion de l’émotion de la voix par réseaux de neurone récurrents

Dates : 01/02/2018 au 30/06/18

Lieu : IRCAM – Analyse et Synthèse des Sons

Responsables : Nicolas Obin, Axel Roebel

Contact : Nicolas.Obin@ircam.fr Axel.Roebel@ircam.fr

Contexte :

 La voix constitue souvent le seul lien « humain » entre l’homme et la machine : la voix de synthèse, par sa «persona», insuffle une «âme» à la machine, et l’humanise. La synthèse vocale est aujourd’hui un enjeu majeur du monde numérique : des assistants vocaux et des robots compagnons dans le domaine de l’assistance personnalisée (cf. Google WaveNet, Van den Oord, 2016). Néanmoins, la synthèse se limite à des voix relativement neutres et standardisées pour des applications précises et des scénarios d’interactions souvent à but purement informatifs (smartphones, GPS, annonces, etc…), avec un timbre « clair » et une prosodie « normée » . Aujourd’huion sait modifier les caractéristiques de bas niveau de la voix (la hauteur, les durées, et le « timbre ») de manière extrêmement réaliste, et même en « temps-réel » à la sortie d’un microphone (par exemple, ircamTools TRAX). En revanche, il existe encore un vide de connaissances pour modifier des caractéristiques de plus haut niveau, comme l’expressivité. En particulier, la modélisation de la  prosodie de la voix : la co-évolution dynamique des hauteurs, intensités, durées, et de la qualité vocale en fonction des émotions et du contenu linguistique, est complexe et demeure sous-étudiée (Beller, 2009 ; Veaux 2011 ; Aihara, 2012 ; Luo, 2016).

 Objectifs :

L’objectif du stage est d’implémenter un moteur de conversion de l’émotion de la voix, par extension des travaux précédemment réalisés à l’Ircam (Veaux, 2011 ). Les travaux de recherche comprendront : 

-       La modélisation de la prosodie de la voix  par réseaux de neurones, à partir d’architectures RNN (Sun, 2015), GAN (Goodfellow, 2014) et de transfer learning (Deng, 2013) ;

- L’implémentation de transformations permettant de modifier de manière cohérente la prosodie d’un signal vocal ;

-    La mise en place d’expériences perceptives pour valider la qualité des conversions d’émotions réalisées.

Le stage s’appuiera sur les connaissances actuelles en analyse/synthèse de la voix et en synthèse et transformation de la voix de l’équipe Analyse et Synthèse des Sons à l’Ircam. Les problèmes abordés pendant le stage seront sélectionnés en début du stage après  une phase d’orientation et une étude bibliographique. Les solutions réalisées au cours du stage pourront être intégrées au logiciel d’édition sonore Audiosculpt de l’Ircam. 

Bibliographie :

 [Aihara, 2012] R. Aihara,  R. Takashima, T. Takiguchi, Y. Ariki, GMM-Based Emotional Voice Conversion Using Spectrum and Prosody Features, American Journal of Signal Processing, 2(5): 134-138, 2012.

[Beller, 2009] G. Beller. “Analyse et modèle génératif de l'expressivité. Application à la parole et à l'interprétation musicale », PhD. thesis, Ircam, 2009.

[Deng, 2013] J. Deng, Z. Zhang, E. Marchi, B. Schuller. Sparse Autoencoder-based Feature Transfer Learning for Speech Emotion Recognition, Humaine Association Conference on Affective Computing and Intelligent Interaction (ACII), 2013.

[Goodfellow, 2014] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. Bengio. Generative Adversarial Networks, Advances in neural information processing systems, 2014.

[Luo, 2016] Z. Luo, J. Chen, T. Nakashika, T. Takiguchi, Y. Ariki, Emotional Voice Conversion Using Neural Networks with Different Temporal Scales of F0 based on Wavelet Transform, ISCA Speech Synthesis Workshop, 2016.

[Obin, 2015] N. Obin, C. Veaux, P. Lanchantin, Exploiting Alternatives for Text-To-Speech
Synthesis: From Machine to Human. Springer Berlin Heidelberg. Speech Prosody in Speech Synthesis:
Modeling and Generation of Prosody for High Quality and Flexible Speech Synthesis, pp.189-202, 2015
.

[Schröder, 2009] M. Schrôder. Expressive Speech Synthesis: Past, Present, and Possible Futures. in Affective Information Processing, J. Tao and T. Tan, Eds. Springer, 2009, pp. 111–126.

[Sun, 2015] L. Sun, S. Kang, K. Li, and H. Meng. “Voice conversion using deep Bidirectional Long Short-Term Memory based Recurrent Neural Networks”, IEEE International Conference on Audio, Speech, and Language Processing (ICASSP), 2015.

[Tao, 2006] Jianhua Tao, Yongguo Kang, and Aijun Li. Prosody Conversion From Neutral Speech to Emotional Speech . IEEE Transactions on Audio, Speech, and Language Processing, Vol. 14 (4), 2006.

[Van den Oord, 2016]  A. van den Oord et al., WaveNet : A generative model for raw audio, Proceedings of Interspeech, San Francisco, 2016 (https:// deepmind.com/blog/wavenet- generative-model-raw-audio/).

[Veaux, 2011] C. Veaux, X. Rodet, “ Intonation Conversion from Neutral to Expressive Speech”, Interspeech , Florence, Italy, p. 2765-2768, 2011.