logo Ircam

Machines d’écoute programmables

Personnes Associées: Nicolas Obin
Date of Activity: 
05/10/2017

 

Machines d’écoute programmables

Lieu : Ircam-STMS, Paris, France
Encadrants: Nicolas Obin (analyse et synthèse des sons), Jean-Louis Giavitto (représentations musicales)

Contexte

La plupart des approches modernes mises en œuvre dans la conception et le développement de machine d'écoute, ou plus généralement de systèmes de perception artificielle, reposent sur des modèles probabilistes. Un modèle probabiliste fixe un espace des possibles (par exemple un ensemble d'événements à reconnaître) et assigne une probabilité à chacun de ces possibles en fonction de l'observation de descripteurs. Ces modèles sont souvent décrit de manière semi-formalisée et les formules où les algorithmes permettant de calculer les probabilités des possibles, sont dérivées « à la main ». Avec le besoin de reconnaître des événements complexes à partir de descripteurs simples, les modèles se compliquent beaucoup et la dérivation à la main des formules permettant d'assigner les probabilités à partir des observations devient un obstacle qui limite fortement les capacités des machines d'écoute.

Une approche récente vise à construire les modèles probabilistes comme un programme écrit dans un langage spécialisé. Chaque expression du programme possède une sémantique précise et définit clairement le modèle sous-jacent. Les constructions du langage dédié permettent de combiner les modèles et de construire ainsi des modèles arbitrairement complexes. L'objectif est ici de permettre la spécification expressive de modèles spécialisés dans la détection d'événements sonores complexes. Par ailleurs, l’apprentissage par programmation bayésienne offre une alternative intéressante à l’apprentissage profond pour l’apprentissage à partir de très peu d’exemples (« one-shot learning »), et constitue un modèle génératif qui peut être utilisé pour la génération de nouvelles instances représentatives des évènements appris par la machine d’écoute.

Objectifs

L'objectif de ce stage est de d'explorer ces techniques et de voir comment elle peuvent s'appliquer par exemple à la re-construction et à l'extension de la machine d'écoute polyphonique du suiveur de partition temps-réel Antescofo développé à l’Ircam. Les principaux points du stage seront :

1) De formaliser l’apprentissage par programmation bayésienne dans le cadre des machines d’écoute, possiblement en ligne et faiblement supervisées.

 

  1. 2)  D'étudier comment cette machine d'écoute peut s'articuler dans un langage hôte, permettant ainsi de mêler intimement spécification de la perception et spécification de la réaction.

  2. 3)  Eventuellement, d’explorer la possibilité de réaliser des synthèses sonores à partir des modèles appris

Profil du candidat

Le profil recherché doit être en Master (ou équivalent), et avoir de fortes compétences dans un ou plusieurs des domaines suivants : traitement du signal audio, apprentissage machine, probabilités bayésiennes, et langage de programmation.

Candidature

Les candidatures (lettre de motivation et CV) doivent être envoyées avant le 1er décembre 2017 Nicolas.Obin@ircam.fr et Jean-Louis.Giavitto@ircam.fr

Références

[1] A. Cont, « A coupled duration-focused architecture for realtime music to score alignment », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 32, 2010.

[2] P. Cuvillier, A. Cont, « Coherent time-modeling for semi-markov models », IEEE International Workshop on Machine Learning for Signal Processing, 2014.

[3] A. Bietti, « Online learning for audio clustering and segmentation », Master thesis, 2014. [4] P. Bessière et al., Bayesian Programming, CRC press, 2013.
[5] Avi Pfeffer, Practical Probabilistic Programming, Manning,
2016

[6] B. Lake, R. Salakhutdinov, J. Tenenbaum, « Human-level concept learning through probabilistic program induction »