Machines d’écoute programmables

Machines d’écoute programmables

Personnes Associées: Nicolas Obin

Date of Activity:

05/10/2017

Machines d’écoute programmables

Lieu : Ircam-STMS, Paris, France
Encadrants: Nicolas Obin (analyse et synthèse des sons), Jean-Louis Giavitto (représentations musicales)

Contexte

La plupart des approches modernes mises en œuvre dans la conception et le développement de machine d'écoute, ou plus généralement de systèmes de perception artificielle, reposent sur des modèles probabilistes. Un modèle probabiliste fixe un espace des possibles (par exemple un ensemble d'événements à reconnaître) et assigne une probabilité à chacun de ces possibles en fonction de l'observation de descripteurs. Ces modèles sont souvent décrit de manière semi-formalisée et les formules où les algorithmes permettant de calculer les probabilités des possibles, sont dérivées « à la main ». Avec le besoin de reconnaître des événements complexes à partir de descripteurs simples, les modèles se compliquent beaucoup et la dérivation à la main des formules permettant d'assigner les probabilités à partir des observations devient un obstacle qui limite fortement les capacités des machines d'écoute.

Une approche récente vise à construire les modèles probabilistes comme un programme écrit dans un langage spécialisé. Chaque expression du programme possède une sémantique précise et définit clairement le modèle sous-jacent. Les constructions du langage dédié permettent de combiner les modèles et de construire ainsi des modèles arbitrairement complexes. L'objectif est ici de permettre la spécification expressive de modèles spécialisés dans la détection d'événements sonores complexes. Par ailleurs, l’apprentissage par programmation bayésienne offre une alternative intéressante à l’apprentissage profond pour l’apprentissage à partir de très peu d’exemples (« one-shot learning »), et constitue un modèle génératif qui peut être utilisé pour la génération de nouvelles instances représentatives des évènements appris par la machine d’écoute.

Objectifs

L'objectif de ce stage est de d'explorer ces techniques et de voir comment elle peuvent s'appliquer par exemple à la re-construction et à l'extension de la machine d'écoute polyphonique du suiveur de partition temps-réel Antescofo développé à l’Ircam. Les principaux points du stage seront :

1) De formaliser l’apprentissage par programmation bayésienne dans le cadre des machines d’écoute, possiblement en ligne et faiblement supervisées.

2) D'étudier comment cette machine d'écoute peut s'articuler dans un langage hôte, permettant ainsi de mêler intimement spécification de la perception et spécification de la réaction.
3) Eventuellement, d’explorer la possibilité de réaliser des synthèses sonores à partir des modèles appris

Profil du candidat

Le profil recherché doit être en Master (ou équivalent), et avoir de fortes compétences dans un ou plusieurs des domaines suivants : traitement du signal audio, apprentissage machine, probabilités bayésiennes, et langage de programmation.

Candidature

Les candidatures (lettre de motivation et CV) doivent être envoyées avant le 1er décembre 2017 à Nicolas.Obin@ircam.fr et Jean-Louis.Giavitto@ircam.fr

Références

[1] A. Cont, « A coupled duration-focused architecture for realtime music to score alignment », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 32, 2010.

[2] P. Cuvillier, A. Cont, « Coherent time-modeling for semi-markov models », IEEE International Workshop on Machine Learning for Signal Processing, 2014.

[3] A. Bietti, « Online learning for audio clustering and segmentation », Master thesis, 2014. [4] P. Bessière et al., Bayesian Programming, CRC press, 2013.
[5] Avi Pfeffer, Practical Probabilistic Programming, Manning, 2016

[6] B. Lake, R. Salakhutdinov, J. Tenenbaum, « Human-level concept learning through probabilistic program induction »

|

Tags: Offres de stage