logo Ircam

Modélisation séquence-à-séquence pour la conversion de l’émotion de la voix

Associated People: Nicolas Obin
Date of Activity: 
29/11/2018

 Titre : Modélisation séquence-à-séquence pour la conversion de l’émotion de la voix

Contexte :

La voix est devenue aujourd’hui un enjeu majeur de l’intelligence artificielle et des assistants personnels : la voix permet d’incarner et d’humaniser la machine. La synthèse vocale est aujourd’hui un enjeu majeur du monde numérique : des assistants vocaux et des robots compagnons dans le domaine de l’assistance personnalisée (cf. Google WaveNet, Van den Oord, 2016). Néanmoins, la synthèse de la parole se limite à des voix relativement neutres et standardisées pour des applications précises et des scénarios d’interactions souvent à but purement informatifs (smartphones, GPS, annonces, etc…), avec un timbre « clair » et une prosodie « normée » . Aujourd’hui, on sait modifier les caractéristiques de bas niveau de la voix (la hauteur, les durées, et le « timbre ») de manière extrêmement réaliste, et même en « temps-réel » à la sortie d’un microphone (par exemple, ircamTools TRAX). En revanche, il existe encore un vide de connaissances pour modifier des caractéristiques de plus haut niveau, comme l’expressivité. En particulier, pour modéliser la prosodie de la voix : c’est-à-dire l’évolution dynamique et cohérente des hauteurs, intensités, durées, et de la qualité vocale (Beller, 2009 ; Veaux 2011 ; Aihara, 2012) et récemment à partir de réseaux de neurones, (Luo, 2016 ; Robinson, 2018).  La capacité de modéliser la variabilité expressive de la voix humaine permettra de franchir une étape décisive dans la compréhension de la voix humaine et des facteurs de sa variabilité expressive. Elle rendra possible la création de voix de synthèse munie d’une personnalité adaptée à son interlocuteur, et capable de varier son expression en fonction de la situation d’interaction, et la réalisation de solutions innovantes permettant de sculpter la personnalité d’une voix pour le design sonore de la voix dans l’industrie créative.

Objectifs :

L’objectif du stage est d’implémenter un algorithme de conversion de l’émotion de la voix de l’Ircam, par extension des travaux précédemment réalisés dans l’équipe Analyse et Synthèse des Sons (Veaux 2011 ; Robinson, 2018). Les travaux de recherche comprendront :

-       La modélisation de la prosodie de la voix  par réseaux de neurones, à partir d’architectures RNN (Sun, 2015) ou GAN (Goodfellow, 2014). La modélisation de la prosodie pourra soit être apprise par des modèles paramétriques (F0 et durée dans un premier temps)  et structurés pour apprendre la prosodie sur plusieurs échelles temporelles (syllabe, phrase, etc…) (Yin, 2015 ; Luo, 2017 ; Wang, 2017).

-        Une modélisation non-paramétrique « bout-en-bout » (« end-to-end ») sera envisagée pour s’émanciper des limitations  d’une représentation paramétrique de la voix expressive : limitation dû aux erreurs de définition ou d’estimation des  paramètres, particulièrement pour le traitement de voix expressives et pour dépasser une représentation de la prosodie forcément limitée pour modéliser la complexité de l’expression vocale des émotions. Par exemple : la F0 seule n’est pas suffisante pour produire des transformations de l’émotion réellement naturelles, et les modèles de prosodie actuels ne permettent pas de représenter des phénomènes spectraux et des non-linéarités pourtant essentielles dans l’expression des émotions.

-       La formalisation de stratégies d’augmentation de données pour l’apprentissage de la transformation des émotions, souvent limités car contraint à des bases de données spécifiques et petites en terme de volume de données.

Le stage s’appuiera sur les connaissances actuelles en traitement automatique de la voix de l’équipe Analyse et Synthèse (AS) des Sons à l’Ircam, et de la logistique nécessaire à l’apprentissage profond (Python, TensorFlow, GPU). Les problèmes abordés pendant le stage seront sélectionnés en début du stage après une phase d’orientation et une étude bibliographique. Les modèles réalisés seront intégrés au moteur de transformation superVP pour réaliser la transformation de l’émotion à partir d’un enregistrement de voix, et le stagiaire portera la mise en œuvre d’une expérience perceptive finale pour évaluer la qualité des conversions réalisées. Par ailleurs, le stagiaire bénéficiera des bases de données de voix expressives de AS, et participera activement à leur agrandissement par l’enregistrement de nouveaux enregistrements d’acteurs professionnels en fonction des besoins du stage. Les solutions réalisées au cours du stage pourront à terme être intégrées au logiciel d’édition sonore Audiosculpt développé par AS.

Bibliographie :

[Aihara, 2012] R. Aihara,  R. Takashima, T. Takiguchi, Y. Ariki, GMM-Based Emotional Voice Conversion Using Spectrum and Prosody Features, American Journal of Signal Processing, 2(5): 134-138, 2012.

[Beller, 2009] G. Beller. “Analyse et modèle génératif de l'expressivité. Application à la parole et à l'interprétation musicale », PhD. thesis, Ircam, 2009.

[Deng, 2013] J. Deng, Z. Zhang, E. Marchi, B. Schuller. Sparse Autoencoder-based Feature Transfer Learning for Speech Emotion Recognition, Humaine Association Conference on Affective Computing and Intelligent Interaction (ACII), 2013.

[Goodfellow, 2014] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. Bengio. Generative Adversarial Networks, Advances in neural information processing systems, 2014.

[Luo, 2016] Z. Luo, J. Chen, T. Nakashika, T. Takiguchi, Y. Ariki, Emotional Voice Conversion Using Neural Networks with Different Temporal Scales of F0 based on Wavelet Transform, ISCA Speech Synthesis Workshop, 2016.

[Robinson, 2018] C. Robinson, N. Obin, Sequence-to-sequence Modeling of F0 for Speech Emotion Conversion, soumis à IEEE International Conference on Audio, Speech, and Language Processing (ICASSP), 2019.

[Sun, 2015] L. Sun, S. Kang, K. Li, and H. Meng. “Voice conversion using deep Bidirectional Long Short-Term Memory based Recurrent Neural Networks”, IEEE International Conference on Audio, Speech, and Language Processing (ICASSP), 2015.

[Tao, 2006] Jianhua Tao, Yongguo Kang, and Aijun Li. Prosody Conversion From Neutral Speech to Emotional Speech . IEEE Transactions on Audio, Speech, and Language Processing, Vol. 14 (4), 2006.

[Van den Oord, 2016]  A. van den Oord et al., WaveNet : A generative model for raw audio, Proceedings of Interspeech, San Francisco, 2016 (https:// deepmind.com/blog/wavenet- generative-model-raw-audio/).

[Veaux, 2011] C. Veaux, X. Rodet, “ Intonation Conversion from Neutral to Expressive Speech”, Interspeech , Florence, Italy, p. 2765-2768, 2011.

[Wang, 2017] X. Wang, S. Takaki, and J. Yamagishi, “An RNN-Based quan- tized F0 model with Multi-Tier feedback links for Text-to- Speech synthesis,” in Interspeech 2017, 2017. 


[Yin, 2015] Xiang Yin, Ming Lei, Yao Qian, Frank K. Soong, Lei He, Zhen-Hua Ling, Li-Rong Dai,  Modeling F0 Trajectories in Hierarchically Structured Deep Neural Networks , Speech Communication, 2015.