ANALYSE ET SYNTHÈSE DES SONS

 

RAPPORT D¹ACTIVITÉ  2004

 

Responsable : X. Rodet

Parmi les stratégies de recherche et de développement de l'équipe, l¹une des premières est l'amélioration des méthodes permettant le traitement, l'analyse et la synthèse des sons, par exemple le vocodeur de phase et le modèle additif. Nos recherches portent donc sur ces méthodes, en particulier la distinction des divers types de composantes spectrales pour affiner les traitements tels que transposition ou allongement. Cependant d'autres techniques sont étudiées, comme la séparation de sources qui a été l¹objet de la thèse remarquable que E. Vincent a soutenue en 2004. En réponse à de nombreuses demandes des musiciens (en particulier les compositeurs du groupe de recherche « Voix »), ou venues du spectacle vivant, le traitement de la voix est l¹objet de plusieurs travaux, transformation de l¹identité et synthèse d¹un locuteur notamment.

Nos travaux sur le geste musical et le contrôle expressif de la synthèse initiés en 1999, par M. Wanderley et dans une collaboration avec le Cnmat de l'Université de Berkeley, ont trouvé aujourd¹hui un aboutissement très intéressant : l¹installation Phase, interactive et multimodale, présentée au grand public au Centre G. Pompidou pendant trois mois, visitée par 20000 personnes environ, a connu un succès extraordinaire auprès des non-spécialistes et des musiciens. De plus la librairie Phase-Lib issue de ce projet peut ainsi être distribuée dans le Forum de l¹Ircam.

Le traitement par le contenu est une voie de recherche poursuivie dans le projet Européen SemanticHIFI notamment. Cette voie comprend entre autres la caractérisation, l'indexation et la reconnaissance des structures et des sons musicaux. Dans ce cadre un nouveau projet, MusicDiscover, soutenu par une ACI du ministère de l¹industrie, est commencé en collaboration avec d¹autres centres de recherche. De plus, les travaux effectués avec les compositeurs dans le groupe de recherche « Orchestration » ont conduit à de nouvelles explorations du timbre.

La compétence de l¹équipe dans le domaine des modèles physiques a été renforcée par l¹attribution d¹un poste de chercheur CNRS à T. Hélie qui avait préparé sa thèse avec nous. Les travaux de l¹équipe dans ce domaine continuent également de se développer dans le projet RIAM Windset mené en collaboration avec un industriel et qui donnera des modèles directement utilisables par les compositeurs, par exemple dans le groupe de recherche « Modèles Physiques ».

Le développement logiciel dans l¹équipe a été marqué par des contrats passés avec des industriels pour l¹acquisition de certains de nos programmes, en particulier par la société américaine MakeMusic. De nombreux autres développements logiciels ont été menés en 2004, en interne ou avec des industriels. Le standard SDIF par exemple est de plus en plus répandu dans les logiciels du Forum. Enfin, la nouvelle version du logiciel AudioSculpt a largement dépassé les fonctionnalités de la précédente et connaît un grand succès. De plus, des extensions très intéressantes sont en cours d¹implémentation.

1.         modèles d'analyse et de synthèse du signal audio

Deux des méthodes les plus utilisées développées par l¹équipe sont le vocodeur de phase et le modèle additif. Plusieurs voies sont explorées pour améliorer ces méthodes : la conception et la prise en compte d¹un véritable modèle de phase (le modèle dit « shape-invariant »), la distinction des divers types de composantes spectrales pour affiner les traitements tels que transposition ou allongement et la préservation de l¹enveloppe spectrale. Enfin l¹analyse de la hauteur, ou fréquence fondamentale, est toujours de la plus grande importance dans les applications musicales.

1.1.       Le modèle « shape-invariant » dans le vocodeur de phase et la synthèse additive

Le vocodeur de phase est le moteur de calcul principal pour les analyses et transformations des sons dans SuperVP et AudioSculpt. Pour la plupart des signaux, la qualité sonore des signaux transformés atteint un haut niveau. Pour la parole, par contre, les signaux transformés souffrent d'un artefact bien connu qui est perçu comme une perte de clarté significative, souvent nommée « phasiness ». En synthèse additive, une amélioration considérable peut être obtenue en utilisant le modèle dit « shape invariant». Ce modèle a été le sujet d'un stage ATIAM pendant lequel l'algorithme a été étudié de façon théorique, quelques améliorations ont été proposées et une façon cohérente de traiter le bruit a été développée [Champion04a]. En vocodeur de phase également, une nouvelle méthode, fondée sur la procédure dite « shape invariant», a été conçue. On obtient ainsi en vocodeur de phase une qualité du signal transformé qui est proche de la qualité obtenue avec l'algorithme PSOLA. Comparé avec le traitement « shape invariant» dans le modèle additif, le nouvel algorithme a l'avantage qu'il n'y a pas besoin d¹estimer la fréquence fondamentale du signal traité. Pour le moment l'algorithme a été implémenté en Matlab [Champion04a]. L'implémentation actuelle nécessite encore du travail pour améliorer le traitement dans les régions non-voisées du signal.

Participants : A. Roebel, G. Champion (stage ATIAM).

1.2.       Suivi des partiels non-harmoniques

Un nouveau module d'analyse en partiels non-harmoniques a été conçu dans AudioSculpt. Pour cette analyse, il existait dans l'équipe le logiciel HMM. Mais l'utilisation de ce logiciel a montré deux problèmes majeurs:

·     L'analyse est trop lente,

·     Les résultats de l'analyse dépendent de paramètres qui sont difficiles à régler.

Pour rendre l'analyse en partiels non-harmoniques plus accessible pour les utilisateurs d'AudioSculpt, un nouvel algorithme a été conçu. Le but de ce travail était de garder les idées les plus importants de l'algorithme HMM tout en simplifiant le calcul et le choix des paramètres pour l'utilisateur. Comme HMM, le nouvel algorithme est fondé sur un modèle probabiliste des variations de fréquence et d'amplitude d'un partiel. Par contre, la définition du voisinage des pics à prendre en compte pour le choix optimal des connexions, et le traitement de l'histoire d'un trajet, ont été simplifiés. Le nouvel algorithme a été étudié et a donné des résultats proches de ceux de HMM. Le temps de calcul est beaucoup plus faible, de telle sorte qu¹une analyse en temps réel pour un nombre de partiels de l¹ordre de 20 ou 30 est possible. L'algorithme a ensuite été intégré dans la bibliothèque et le programme Pm2 (voir le paragraphe Développements)

Participants : M. Zivanovic (PostDoc), A. Roebel.

1.3.       Classification des pics spectraux

La classification de la nature des pics spectraux est importante pour plusieurs applications. Un algorithme permettant cette classification a été étudié au cours de l'année 2003. Les applications actuelles sont le traitement « shape invariant » dans le vocodeur de phase et l'analyse de fréquences fondamentales multiples. Pour améliorer l'utilisation de l'algorithme, une meilleure gestion des paramètres a été conçue. Au cours de l'année 2004, une nouvelle méthode d'adaptation du seuil pour le descripteur NBD [Roebel04a, Zivanovic04a] a été élaborée. L'utilisateur n'a plus à donner que le taux d'erreur de classification des pics bruités comme sinusoïdaux et le seuil est adapté automatiquement. Par contre, pour un résultat encore meilleur, le seuil pour le descripteur DD doit aussi être réglé, ce qui pose un problème difficile parce que les frontières de décision deviennent 2-dimensionnelles.

Participants : M. Zivanovic (PostDoc), A. Roebel.

1.4.       Préservation de l'enveloppe

Suite à des demandes d'utilisateur d'AudioSculpt, le problème de la préservation de l'enveloppe spectrale a été étudié de nouveau. Le problème se pose lors de la transposition des sons. Le but de cette opération est le changement de la hauteur tonale sans changement du timbre du son. Dans la technique de base du vocodeur de phase (SuperVP), une transposition change aussi l'enveloppe spectrale et donc le timbre. La technique accessible dans SuperVP pour la préservation de l'enveloppe nécessitait une transformation en plusieurs étapes: aplatissement de l¹enveloppe par filtrage LPC, transposition, ré-application de l¹enveloppe par filtrage LPC inverse. L'étude du problème montre que la nécessité de faire la re-synthèse avant d¹appliquer la transposition entre les deux filtrages complique la méthode et rends le résultat sous-optimal. Pour éviter cette difficulté, une nouvelle méthode a été mise en place, qui permet de corriger l'enveloppe spectrale avant la transposition en appliquant un seul filtre. Ce filtre déforme l'enveloppe de façon telle que, après transposition, l¹enveloppe transposée est la même que celle du signal original. Si l'enveloppe estimée est correcte, la méthode permet de préserver l'enveloppe d'un façon simple et efficace. Les résultats sont prometteurs même si la méthode actuellement utilisée pour l'estimation de l'enveloppe doit être améliorée. Ce dernier problème sera traité pendant l'année 2005.

Participants : A. Roebel.

1.5.       Estimation des fréquences fondamentales (F0) multiples

L'algorithme d'estimation de fréquence fondamentale (F0) développé pendant les années précédentes est fondé sur le principe du « spectral matching » et sur des informations a priori sur les spectres des sources sonores naturelles. En 2003 nous avons montré que l'algorithme donne des résultats équivalents à ceux de l'algorithme YIN pour le cas de la parole (F0 unique). Pendant l'année 2004, nous avons étudié des critères efficaces pour l'évaluation des hypothèses dans le cas de l'estimation de F0 multiples. Nous avons aussi étudié les possibilités d'adapter la pondération des différentes régions du spectre observé afin d'utiliser au mieux l'information disponible. Dans ce cadre, la classification des pics spectraux a trouvé une nouvelle application. L'algorithme d'estimation de F0 multiples actuellement développé utilise encore l'hypothèse que le nombre des sources sonores est connu. Il évalue un certain nombre de combinaisons hypothétiques de F0 candidats. Pour un nombre d'instruments limité, pas plus de 5, les résultats de l'algorithme sont prometteurs. Une base de données a été créée, suivant la description de la thèse de A. Klapuri, pour pouvoir comparer nos résultats avec les siens. Comme la sélection des sons utilisés pour l¹évaluation est aléatoire, la comparaison avec les chiffres de A. Klapuri doit être interprétée avec précaution. Mais nous avons constaté que notre algorithme se compare plutôt favorablement avec le sien. Notons enfin que cette recherche est également incluse dans le projet MusicDiscover et utilisée par A. Livshin pour la reconnaissance des instruments en contexte polyphonique.

Participants : C. Yeh (Thèse), A. Roebel

Collaborations internes : A. De Cheveigné (équipe Perception et cognition musicales).

1.6.       Estimation automatique de paramètres pour la synthèse sonore

A partir d'un enregistrement d'un instrument, il s'agit d'estimer les paramètres de jeu d'un modèle, afin que la production du modèle soit la plus proche possible de l'enregistrement. Pour cela, une large base de données des différentes productions du modèle est constituée, pour servir à la technique dite d'apprentissage par table. La méthode a été appliquée à un modèle de trompette sur lequel des contraintes physiques ont été imposées pour résoudre le problème des solutions multiples [Dhaes04b], [Dhaes04a]. Ce travail de thèse a été terminé en 2004 et la thèse soutenue le 15 Juin [Dhaes04c].

Participants :  W. D¹Haes (thèse)

Collaborations extérieures : D. Van Dyck (Université d'Anvers)

1.7.       Modèles d'instruments pour la transcription et la séparation d'enregistrements musicaux

 

Ce travail a pour but d'extraire dans un enregistrement musical polyphonique (monocanal ou multicanal) la partie jouée par chaque instrument [Vincent04a]. Dans le cadre de sa thèse, E. Vincent a proposé un modèle probabiliste d'instrument par réseau bayésien hiérarchique permettant de prendre en compte conjointement de nombreuses caractéristiques des sources:  harmonicité, enveloppe spectrale, durée des notes et direction spatiale[Vincent04b]. Ce travail a été appliqué à quatre tâches précises:  identification des instruments, transcription des notes jouées par chacun, séparation de sources et re-mixage [Vincent04d]. Des résultats particulièrement innovants ont été obtenus pour l'identification d'instruments dans des duos synthétiques et pour la séparation de mélanges synthétiques très réverbérants ou contenant des instruments de même tessiture. Par ailleurs, la collaboration suivie avec R. Gribonval et C. Févotte a permis de définir de meilleures mesures de performance pour la séparation de sources.

E. Vincent a soutenu cette thèse le 2 décembre 2004 [Vincent04c]. La thèse a reçu un excellent accueil et les résultats sont tout à faits remarquables.

Participants :  E. Vincent (thèse)

Collaborations internes : A. Livshin (thèse), C. Yeh (thèse)

Collaborations extérieures : R. Gribonval (METISS, IRISA Rennes), C. Févotte (Signal Processing Lab, Cambridge University)

2.         Traitement de la voix

Récemment, de nombreuses demandes concernant le traitement de la voix sont apparues. Elles proviennent des musiciens, du théâtre, du film et du multimédia. Deux directions de recherche sont donc commencées, l¹une sur la transformation de l¹identité d¹une voix et l¹autre sur la synthèse d¹un locuteur.

2.1.       Reconstitution d'une voix parlée

Ce projet, débuté en 2003, est mené par des stagiaires. Il a pour but la reconstitution de la voix d'un locuteur à partir d'enregistrements. Le système Talkapillar permet de créer une voix par une sélection intelligente de fragments sonores dans une base de données, en fonction du texte que l'on souhaite faire prononcer. L¹un des buts est de pouvoir préserver l'identité vocale d¹un locuteur. L'introduction d'un modèle prosodique nous a déjà permis d'aller dans ce sens. Un nouveau texte pourrait alors être lu par ce modèle comme si le locuteur l'avait prononcé.

Le système de synthèse de la parole par concaténation d'unités « Talkapillar » [LeBeux04a], [Beller04a], a bénéficié des améliorations suivantes :

·     Développement d¹un modèle de prosodie par sélection de groupes prosodiques.

·     Portage du logiciel d'analyse du texte « Euler » sous Linux.

·     Amélioration de la procédure d'alignement d'une voix parlée avec le texte.

·     Diminution des temps nécessaires à la création de la voix d'un locuteur et à sa synthèse, grâce à une meilleure configuration et à l¹utilisation d¹un serveur de base de données PostgreSQL.

·     Automatisation des étapes de création d'une voix.

·     Implémentation d'un premier programme « Text To Speech ».

·     Amélioration de la robustesse du système, développement d'outils d'analyse des résultats.

Participants : X. Rodet, T. Hueber (stage), H. Cousin (stage), S. Lebeux (stage), G. Beller (stage)

Collaboration interne : D. Schwarz (équipe Applications Temps-Réel).

2.2.       Transformation de l¹identité d¹une voix : apprentissage, prosodie et perception

Cette thèse, débutée au mois d'octobre 2003, a pour objectif de pouvoir donner l'identité de la voix d'un locuteur 'cible' à la voix d¹un locuteur 'source'. Il s¹agit donc de trouver une telle fonction de transformation  à l'aide de l'extraction, l'apprentissage et la modification de paramètres du signal de la voix (fréquence fondamentale, enveloppe spectrale, source d'excitation) spécifiques d¹un locuteur.

Dans la bibliographie actuelle à ce sujet, on trouve deux problèmes principaux pour les résultats obtenus:

·     La qualité moyenne du signal de synthèse, pour certaines transformations, n¹est pas perçue comme celle d¹une « voix naturelle »

·     Les performances dépendent de la similarité des locuteurs source et cible.

Le travail pendant l'année 2004 fut de plusieurs natures. Dans un premier temps, nous avons cherché à évaluer la performance de la fonction de conversion de paramètres 'source-cible', et ce pour différents contextes phonétiques. Puis nous avons entrepris une évaluation des paramètres liés à l'identité d'un locuteur et qui peuvent être utilisés dans un système d'analyse/synthèse de bonne qualité. Finalement, un premier système de transformation de voix a été développé. Celui-ci est fondé sur une adaptation de l'application de synthèse PSOLA créée par G. Peters. Des transformations fondées sur des paramètres de conversion fixes dans le temps sont en cours d'évaluation.

Participants : X. Rodet, F. Villavicencio (thèse), G. Peeters.

3.         contrôle MULTIMODAL de LA synthèse : haptique et graphique

 

Le projet PHASE (Plateforme Haptique d'Aide à la Synthèse et à l'Éveil musical) est un projet d'étude du contrôle interactif et multimodal de la synthèse musicale [Lambert04a]. Ce projet est soutenu par le réseau RIAM et mené par quatre institutions : l¹Ircam a effectué la recherche concernant les manipulations sonores et musicales et a défini les métaphores d¹interaction, le CEA-List a effectué la recherche haptique, la société Haption a réalisé l¹interface haptique et la société Ondim s¹est occupé de l¹intégration et de la réalisation visuelle. Le projet est aussi destiné à l'éveil musical de l'utilisateur par la focalisation sur l'écoute, le jeu d'un instrument élaboré et la navigation dans des scénarios musicaux interactifs. Trois modalités sont étudiées dans un dispositif fondé sur un contrôle haptique, une visualisation graphique 3D et un système de synthèse musicale de haute qualité (dans l'environnement Max) et spatialisé. Il est essentiel que ces modalités paraissent cohérentes pour l¹utilisateur. La cohérence entre les différentes modalités est garantie par une métaphore qui fait le lien logique entre celles-ci, et donc entre le monde réel où se trouve la main, et le monde virtuel musical. De nombreuses métaphores ont été expérimentées en 2003 et 2004. Les principaux travaux effectués en 2004 sont :

·     Travail sur les modalités d'interaction (collaboration avec F. Bevilacqua et N. Schnell, équipe Applications Temps-Réel) avec des paramètres gestuels de haut niveau ;

·     Travail sur les manipulations sonores (adaptation temps réel d'algorithmes de l'équipe Analyse/synthèse) avec des paramètres sonores de haut niveau (descripteurs) ;

·     Manipulation des structures musicales (travaux du compositeur R. Cahen et de J.P. Lambert) ;

·     Mise en jeu et contrôle de la spatialisation (collaboration avec l'équipe Acoustique des salles et C. Le Prado) ;

·     Choix et tests de correspondances entre les différents paramètres de haut niveau (mapping multimodal).

Le second semestre 2004 a été consacré à la construction et à l¹évaluation d¹un démonstrateur des résultats des recherches du projet sous la forme d¹une installation interactive offrant au grand public un jeu musical. Durant les trois derniers mois, ce démonstrateur a été présenté et utilisé par un très large public dans la galerie des enfants du centre Pompidou, à l¹occasion de l¹exposition «Ecoute» [Lambert04b]. À la différence d¹un jeu vidéo, le but n¹était pas d¹animer des pixels sur un écran mais bien de jouer avec de la musique et ainsi susciter un éveil musical. Le démonstrateur a accueilli de l¹ordre de 20000 visiteurs et le système a pu être essayé par plus de 3000 personnes qui sont reparties avec le résultat de leur prestation gravé sur un CD Audio.

Le succès auprès du public, spécialisé ou non, a été exceptionnel. Les participants ont manifesté un très grand enthousiasme pour cette installation, son aspect éducatif et ludique et sa facilité de prise en main. De nombreuses institutions ont demandé à accueillir le démonstrateur durant l¹année 2005 et plusieurs présentations sont déjà programmées. La réalisation d'une installation interactive pour le grand public sous la forme d'un jeu musical intégrant différentes métaphores, et le succès qu¹elle a rencontré auprès d¹un public très varié, allant d¹enfants à des compositeurs, montre la validité d'un tel dispositif et ouvre la voie à de nombreuses manipulations musicales gestuelles originales [Mobuchon04a].

Parmi les résultats du projet Phase, on peut aussi noter la librairie Phase-Lib pour MAX, composée par R. Cahen avec des patchs développés dans le cadre du projet.

Enfin un disque DVD consacré au projet Phase et au démonstrateur a été réalisé par D. Hart avec le soutien de réseau RIAM. Il contient un film d¹une durée d¹une demi-heure qui présente le système, son exploitation par le public et des explications détaillées par les différents intervenants.

Participants : X. Rodet, J.-P. Lambert, R. Cahen, F. Guedy, R. Kronenberg, T. Gaudy (stage), N. Obin (stage).

Collaboration interne : équipe Applications temps réel

Collaborations extérieures : C. Andriot (Laboratoire CEA-List), F. Gosselin (société Haption), P. Mobuchon (société Ondim), D. Hart.

4.         Alignement d¹une partition avec le signal audio

L'alignement d¹une partition et de l'audio consiste à déterminer les temps exacts de début et de fin des notes d'une partition dans l'enregistrement audio de cette partition. Cela ouvre la voie à de nombreuses applications telles que la détermination automatique de l'interprétation (musicologie), la constitution de bases de données pour la reconnaissance ou la séparation de sources (Cf. ces projets). Ce travail, commencé en 2003, s¹est poursuivi en 2004 dans le cadre d'un contrat industriel avec la société MIST. Les objectifs ont été les suivants [Rodet04a]:

·     Amélioration de la précision de la détection des débuts de notes,

·     Ajout des percussions dans le modèle acoustique,

·     Détection des fins de notes,

·     Estimation des paramètres de hauteur et de dynamique,

·     Estimation du timbre pour un « sampler » utilisant des filtres passe-haut et passe-bas et une base de donnée des instruments de la norme « General Midi »,

·     Sortie des résultats en fichiers MIDI « enrichi » respectant la norme GM,

·     Optimisation de l¹algorithme de Dynamic Time Warping,

·     Documentation complète du projet.

Une version complète du logiciel d¹alignement a été achevée fin 2004 et livrée à la société MIST. Elle a également été utilisée dans l¹équipe Formulation du Musical pour des études sur l¹interprétation.

Participants : J. Escribe, P. Bernat-y-vicens (stage) et X. Rodet

Collaborations internes : D. Schwarz (équipe Applications temps réel), N. Donin (équipe Formulation du Musical)

Collaborations extérieures : MIST (Société).

5.         Traitement par le contenu

L¹expression « traitement par le contenu » met l¹accent sur la recherche d¹information concernant le contenu musical de fichiers audio. Cela couvre des études sur la reconnaissance et la classification des sons, particulièrement en vue d'indexation, des études sur la navigation dans des bases de données sonores, par exemple pour les créateurs et « designers » sonores et l'utilisation de descripteurs du son, depuis les bas niveaux  jusqu'aux niveaux élevés de structuration de l¹audio. Le traitement par le contenu est une voie de recherche poursuivie dans le projet européen SemanticHIFI notamment. Par ailleurs un nouveau projet, MusicDiscover, sur le traitement de bases de données audio est commencé en collaboration avec d¹autres centres de recherches.

5.1.       Descripteurs et structures pour le projet SemanticHIFI

5.1.1.1.1.       Détection de structures à partir de l'audio

L¹extraction de la structure d¹un morceau s¹intègre dans les recherches du projet SemanticHIFI. Cette méthode repose sur la détection de répétitions dans un signal audio au travers d¹observations du signal au cours du temps. Jusqu¹à présent ces observations étaient essentiellement fondées sur la description du timbre du morceau. En 2004, ces observations ont été étendues à la représentation des caractéristiques harmoniques (représentées sous forme de chroma) ; ce type d¹observation s¹avère particulièrement utile dans le cas de la musique classique et contemporaine (analyse de scènes de l¹opéra K pour l¹article de M. Ramstrum); où ces caractéristiques prévalent souvent sur le timbre. L¹intégration de ces travaux dans un « lecteur » flash de structure développé par l¹équipe Hypermédia de l¹Ircam est rendu possible au travers d¹une communication par fichier xml. La détection de structures par algorithme de clustering hiérarchique aglomératif a également été étudiée et sera poursuivie en 2005. La détection du rythme du morceau (voir ci-après) a été intégrée dans la génération du résumé audio du morceau (reconstruction beat-synchrone) [Brevet Peeters 2004].

Participants : G. Peeters

Collaborations internes : Equipe Hypermédia.

5.2.       Extraction d¹information rythmique

L¹étude du rythme s¹intègre dans le cadre de l¹extraction des caractéristiques de haut niveau du projet SHF. Cette étude commence par l¹établissement d¹un algorithme permettant l¹extraction du tempo et le marquage des battues utilisable tant dans un cas de musique percussive que de musique classique. Excepté le stage de [Durigon03a], ce sujet est relativement nouveau dans l¹équipe. Deux approches ont été étudiées en 2004. La première [Goyeau04a] repose sur la détection des « onsets » du signal audio, effectuée par détection de l¹augmentation d¹énergie simultanément dans plusieurs bandes de fréquence. Un histogramme des distances entre onsets est ensuite créé. Finalement la périodicité maximale de cet histogramme est estimée ; celle-ci indique la pulsation expliquant au mieux les différentes périodicités des onsets. Une deuxième approche souvent utilisée analyse directement la variation d¹énergie du signal au cours du temps dans différentes bandes de fréquence. Une analyse fréquentielle permet ensuite de déterminer la pulsation commune entre les différentes bandes de fréquence. La première approche permet une description détaillée du rythme, mais s¹avère peu robuste dans un contexte de musique constituée. La deuxième approche présente les avantages inverses. Nous avons étudié une approche combinant les avantages des deux méthodes : dans un premier temps une fonction temporelle « continue » représentant la vraisemblance d¹un onset à chaque instant est calculée, cette fonction est sensible aux onsets de type percussifs mais également aux enchaînements de hauteur sans variation d¹énergie. La périodicité de cette fonction est étudiée au cours du temps par un algorithme de type Viterbi. Cet algorithme permet la prise en compte d¹octaviations car la pulsation prépondérante ne correspond pas nécessairement au tempo. Finalement, le marquage de chaque temps est effectué par une modification de l¹algorithme de marquage PSOLA développé par G. Peeters. L¹algorithme a été évalué sur plusieurs bases de données musicales dont les bases de référence ISMIR2004. L¹étude de l¹estimation du caractère binaire/ternaire, ainsi que de la métrique, qui est effectuée au travers du spectre de raies se poursuivra en 2005.

Participants : G. Peeters, J.-B. Goyeau (stage).

5.3.       Reconnaissance Automatique des instruments

Pour ce qui concerne les échantillons sonores ou notes isolées, l¹amélioration de l¹algorithme de classification automatique des sons étudié dans le cadre du projet CUIDADO, par modèle gaussien hiérarchique, a été étendu au modèle de mélange de gaussiennes hiérarchique (gaussian mixture). Le module d¹extraction automatique des descripteurs [Peeters 04a] a été intégré dans la Sound Palette On Line de lŒIrcam.

Par ailleurs, dans la thèse de A. Livshin, il s¹agit de fournir l¹indexation automatique de musique en termes des instruments, c¹est-à-dire, à chaque instant d¹un morceau, de déterminer les instruments en train de jouer. Les applications sont nombreuses :

·     Recherches en fonction d¹un instrument ou d¹arrangements spécifiques dans les musiques disponibles sur Internet ou archivées dans une base de données.

·     Recherches par similitude en fonction des instruments.

·     Contrôle des différents instruments dans les enregistrements, permettant de fournir des fonctions telles que changer le volume de certains instruments dans le mélange, modifier la spatialisation, etc.

·     Exploration et édition d¹une oeuvre enregistrée (pour les studios d'enregistrement par exemple) en permettant d¹aller directement à diverses parties instrumentales.

·     Outil supplémentaire pour d'autres recherches, telles que l¹alignement, la transcription automatique, etc.

En 2004, le travail de recherche s¹est porté sur l¹identification des instruments dans des exécutions solos [Livshin04a] et duos [Livshin04b]. Des résultats déjà utilisables ont été obtenus. Par exemple, il est possible de reconnaître un certain nombre d¹instruments en temps réel avec un taux de réussite suffisant pour de nombreuses applications.  Ce travail a été mené en collaboration avec le projet de détection de fréquences fondamentales multiples (Cf. ce paragraphe). Enfin cette recherche est également une part importante du projet MusicDiscover.

Participants : G. Peeters, A. Livshin (thèse), C. Yeh (thèse)

Collaborations internes : P. Tisserand, S. Winsberg.

5.4.       Transformation par descripteurs de haut niveau

Ce travail s¹inscrit dans le cadre des études de synthèse de haut niveau du projet SemanticHIFI et fait également suite aux réunions du groupe « Orchestration » mise en place lors de l¹année 2004. L¹objectif est d¹étudier les algorithmes permettant la manipulation d¹un signal sonore par descripteurs de haut niveau, dans le cas présent les descripteurs considérés sont perceptifs [Tardieu04a]. Des études perceptives (expériences de McAdams et al., descripteurs de Krimphoff, Misdariis, Peeters) mettent en évidence la prépondérance des deux premiers moments spectraux dans la perception du timbre d¹un son. L¹objectif est de permettre la modification du son à travers ces moments. De manière à rendre le système inversible, les moments d¹ordre 3 et 4 du spectre sont alors imposés. Le spectre du signal est modélisé sous forme d¹une enveloppe spectrale représentée par un ensemble de splines et un « résiduel ». Les paramètres des splines sont alors fonction des quatre premiers moments.

Participants : D. Tardieu (stage ATIAM), G. Peeters, X. Rodet

Collaborations internes : équipe PCM, groupes de travail Orchestration

5.5.       Outils de traitement pour le projet Orchestration

Le groupe de travail Orchestration a suscité la mise au point de bases de données pour la recherche et production musicale à l¹Ircam. Ces données sont soit issues de la base Studio On Line, soit d¹enregistrements effectués par la production et qu¹il faut traiter. Dans ce cadre, l¹équipe a développé des algorithmes et programmes facilitant la constitution de ces bases de données, normalisation des sons pour le traitement de Studio On Line et découpage d¹un enregistrement en échantillons :

·     Programme de normalisation en « loudness » des canaux gauche-droit afin de rééquilibrer l¹image stéréophonique.

·     Programme de normalisation en loudness de tous les sons présent dans un répertoire donné afin de permettre la création de multi-échantillons homogènes.

·     Programme de découpage d¹un enregistrement continu en tous sons séparés par des silences. Ces sons pourront prochainement être classés automatiquement en sons musicaux, parole et mélange des deux.

Participants : G. Peeters, X. Rodet, N. Obin (stage)

Collaborations internes :  groupe de travail Orchestration, E. Poletti.

5.6.       Identification audio

Ce projet répond à une demande très ponctuelle d¹identification d¹extraits audio (audio identification, fingerprint). L¹algorithme d¹identification audio de l¹Ircam initialement développé par L. Worms en 1999 et amélioré dans le cadre du projet CUIDADO, a été revu de manière à permettre la reconnaissance audio à travers un canal de transmission dégradé (combinaison d¹une émission par haut-parleur et réception par microphone de téléphone).

Participants : G. Peeters.

5.7.       Projet MusicDiscover

Ce projet, qui a débuté à la fin de 2004, est une collaboration avec le LTCI/ENST (Paris) et le LIRIS (INSA de Lyon) (http://recherche.ircam.fr/equipes/analyse-synthese/musicdiscover/). Il fait l¹objet d¹un financement ACI-Masse de données. L'accroissement des capacités de stockage et des débits de transmission sur les réseaux ont favorisé la mise à disposition et la circulation d'un nombre considérable d'enregistrements musicaux. Cette masse de données pose des problèmes nouveaux d'accessibilité pratique, de traitement et de protection des droits de propriété. Il devient ainsi indispensable d'avoir accès au contenu (comme c'est le cas par exemple pour le texte), c¹est-à-dire à une description sémantique structurée et aussi complète que possible des enregistrements: mélodie, genre/style, rythme, instrumentation, structure musicale, harmonie, etc. L'enjeu principal de ce projet est ainsi de développer et d'évaluer des moyens réellement orientés vers le contenu et adaptés à l'utilisateur. Ces moyens incluent les techniques et outils d'analyse, d'indexation, de représentation et de recherche d'informations qui permettront de construire et d'utiliser cette description sémantique structurée.

Participants : X. Rodet, G. Peeters, J. Escribe, D. Tardieu, A. Livshin, C. Yeh et B. Delezoide

Collaborations internes : J. Barthélémy (Service en ligne)

Collaborations extérieures : Gaël Richard (LTCI CNRS-Get/Télécom Paris), L. Chen (LIRIS CNRS).

 

5.8.       Collaboration multimodale pour l'indexation

Après avoir testé et implémenté plusieurs systèmes de segmentation temporelle et de classification des objets mono médium en 2003, nous avons poursuivi en 2004 sur l¹étude de systèmes équivalents de traitement des objets multimédias. Plusieurs algorithmes, permettant la prise en compte des informations contenues dans les différents médias des documents, ont été développés. Ceux-ci s¹appliquent au cinéma, où sont présents trois médias : image, son et texte (sous-titre), mais peuvent aussi être utilisés pour de nombreuses tâches comme la vidéo surveillance ou la recherche de vidéo dans de grandes bases de données.

Un algorithme de segmentation hiérarchique de film a été développé [Delezoide04a]. Il découpe temporellement un film, et fournit une représentation structurelle de celui-ci en quatre niveaux de granularité : plan, groupe de plans, scène, groupe de scènes. Cette représentation est ensuite intégrée dans un arbre hiérarchique, ce qui permet un traitement simplifié de la structure du film par des algorithmes, par exemple de classification. Cette segmentation prend en compte les informations issues du son et de l¹image, et surtout les relations qui lient ces médias à différents niveaux de granularité temporelle.

Après avoir découpé le film en structures significatives, nous voulons décrire le contenu de chacun des éléments des structures. Pour cela, plusieurs algorithmes de classification ont été développés :

·     Classification d¹ambiance. À partir d¹un plan du film, l¹algorithme détermine « le lieu dans lequel on se trouve ». Une ontologie hiérarchique des « lieux » a été construite comprenant les concepts : intérieur/extérieur, ville/campagne, etc. Un outil de classification fondé sur les Support Vector Machine (SVM) permet de déterminer de façon hiérarchique l¹appartenance d¹un plan (image et son) aux classes de l¹ontologie [Delezoide04b]. Un réseau bayésien opère la fusion des données des différents médias, mais aussi des données de bas niveaux (descripteurs) et de niveau moyen (présence d¹un immeuble). Ainsi une description du type « extérieur/ville/place » est construite et permet la localisation du plan.

·     Identification des personnages. A partir de l¹image d¹un comédien et de l¹enregistrement de sa voix, nous voulons déterminer son nom. Ici, un algorithme de reconnaissance des visages, développé au CEA et un algorithme de reconnaissance de la voix, développé à l¹Ircam sont associés par l¹intermédiaire d¹un réseau bayésien pour déterminer le nom du comédien présent à l¹image.

Nous prévoyons de rassembler les algorithmes étudiés pendant ces deux dernières années afin de construire un système de description textuelle globale des films. Ce système permettra de classer et de rechercher un film ou un segment de film dans une base de donnée à l¹aide de texte.

Participants : B. Delezoide (thèse).

Collaborations extérieures : C.Flhur (CEA), P.Hede (CEA).

[Delezoide04a] Delezoide, B., « Hierarchical film segmentation using audio and visual similarity².

[Delezoide04b] Delezoide, B., ³Indoor-outdoor classification using image and audio features².

6.         Modèles physiques de production sonore

Par opposition aux modèles de signaux essentiellement utilisés dans les paragraphes précédents, les modèles physiques mettent l¹accent sur le processus physique de création du son dans les instruments acoustiques. L¹arrivée d¹un chercheur CNRS, T. Hélie, qui avait préparé sa thèse avec nous, a renforcé la compétence de l¹équipe dans ce domaine. D¹autre part le projet RIAM Windset a commencé en 2004 en collaboration avec un industriel et donnera des modèles directement utilisables par les compositeurs.

6.1.       Modélisation physique et simulation numérique

T. Hélie est arrivé dans l¹équipe en octobre 2004. Ses travaux sont concentrés sur trois thèmes autour de la simulation numérique: les tubes évasés avec pertes visco-thermiques (avec D. Matignon, ENST), un algorithme de résolution rapide de propagation non linéaire à amortissement proportionnel (avec C. Vergez, LMA-CNRS) et l'utilisation des Séries de Volterra pour la résolution d'équations aux dérivées partielles faiblement non linéaires avec contrôle frontière en 2D (avec B. Laroche, Supélec/INRA). Cette dernière étude a pour but de permettre à terme la simulation d'instruments de musique y compris pour des nuances fortissimo.

Participants : T. Hélie (CR2 CNRS)

Collaborations internes : C. Vergez (équipe Acoustique Instrumentale- CR2, CNRS LMA)

Collaborations extérieures : B. Laroche (MdC- L2S Supélec/INRA), D. Matignon (MdC-ENST).

6.2.       Modèle de l'anche double et du hautbois

L'objectif de ce travail de thèse est de caractériser le comportement de l'anche double comme excitateur d'instruments à vent et de proposer un modèle de synthèse sonore. Les mesures des caractéristiques statiques débit/pression se sont avérées plus difficiles que prévu pour les anches doubles. En particulier, la méthode utilisée par S. Ollivier dans sa thèse pour la mesure de la même courbe pour les becs de Clarinette ne semble pas pouvoir s¹appliquer directement au cas des anches doubles. On a envisagé de nouvelles pistes, en particulier la mesure de plusieurs caractéristiques pour chaque ouverture de l'anche. Les principaux travaux effectués sont :

·     Mesures par fil chaud. Des mesures de vitesse d'écoulement par fil chaud ont été réalisées, notamment en collaboration avec B. Fabre (LAM, Paris), expert dans ce domaine. Elles nous ont servi à déterminer les fonctions caractéristiques de débit, mais aussi à obtenir une série d'informations importantes sur l'écoulement dans la partie finale de l'anche. Les techniques mises en ¦uvre ont aussi permis d¹étendre ces mesures au cas dynamique.

·     Mesures de paramètres physiques de l'anche double. En plus des mesures relevant purement de la Mécanique des Fluides, on a aussi essayé de faire une caractérisation simplifiée de l'anche du point de vue Mécanique et du couplage Fluide/Structure. Ces travaux ont fait l¹objet de deux stages en 2004 :

o      Réponse mécanique de l'anche (stage C. Vern). Une méthode a été développée pour mesurer la réponse mécanique de l'anche double, avec une excitation acoustique et une mesure de vibration par vibromètre laser.

o      Mesures statiques de l'anche (stage M. Coulon) : raideur (méthode mixte mesure de pression et traitement d'image) et viscoélasticité de l'anche (par traitement d'image), et développement d'interfaces de traitement d'image.

·     Pendant son stage, M. Coulon a amélioré les programmes Matlab de traitement d'image (utilisés pour de nombreuses expériences réalisées par A. Almeida) et les a intégrées dans une interface graphique, permettant entre autres de faire des analyses d'image en temps réel.

·     Développement du modèle d'écoulement et de couplage fluide-structure. Face à toutes les données déjà réunies, plusieurs modèles peuvent être proposés pour décrire le couplage fluide-structure dans l'anche double. Ce modèle sera testé dans notre moteur de synthèse d'instrument à anche.

Participants : A.. Almeida (thèse)

Collaborations internes : M. Coulon, C. Vern, R. Caussé, G. Bertrand (équipe Acoustique Instrumentale), A.. Terrier (Atelier mécanique)

Collaborations extérieures : C. Vergez (LMA), B. Fabre (LAM Paris 6), A. Hirschberg (TUE, Pays-Bas).

6.3.       Projet Windset : Multimodèle physique pour applications musicales

Ce projet est mené en collaboration avec la société ARTURIA et soutenu par le réseau RIAM. Le but est de concevoir et de développer des modèles physiques d¹instruments à vent, en particulier trompette, trombone, saxophone, clarinette et flûte. Ces modèles sont implantés d¹une part dans MAX, d¹autre part en « plugin » VST sur PC pour être utilisés par les musiciens clients d¹ARTURIA notamment. Ces travaux sont menés en collaboration entre les équipes Analyse-Synthèse (X. Rodet et A. Almeida), Acoustique des Instruments (R. Caussé et A. Almeida), Logiciels Libres et Ingénierie des Logiciels (P. Tisserand) et Applications Temps-Réel (N. Schnell), et avec C. Vergez. Trompette et trombone sont dérivés du modèle conçu et développé par C. Vergez durant sa thèse à l¹Ircam. Les développements sont assurés en particulier par P. Tisserand. C. Vergez et A. Almeida sont chargés de concevoir et développer des modèles physiques de trompette, clarinette et saxophone et de les rendre jouables à partir d'un contrôleur Midi de type clavier. Pour l'année de 2004, les principaux résultats sont une version préliminaire de trompette, de clarinette (sans « mapping ») et une version alpha de saxophone avec un « mapping »simple nécessitant encore des améliorations.

Participants : X. Rodet, A. Almeida, P. Tisserand (Ingénierie des Logiciels)

Collaborations internes : R. Caussé (équipe Acoustique des Instruments), N. Schnell (Applications Temps-Réel)

Collaborations extérieures : C. Vergez (LMA).

7.         Développements

La nouvelle version du logiciel AudioSculpt a largement dépassé les fonctionnalités de la précédente et connaît un grand succès. Le développement logiciel dans l¹équipe a aussi été marqué par les contrats passés avec des industriels pour l¹acquisition de certains de nos programmes, en particulier la société américaine MakeMusic. Concernant le développement des bibliothèques et logiciels de l'équipe, on peut citer les réalisations suivantes en 2004:

·     Développement des logiciels du Forum avec l¹objectif de mettre toutes les analyses connues dans AudioSculpt-1.2beta à la disposition des utilisateurs d'AudioSculpt-2.

·     Développements financés par des moyens externes (Mist, MakeMusic)

·     Maintenance des logiciels et bibliothèques internes,

·     Augmentation de l'efficacité.

7.1.       SuperVP

Le développement du logiciel SuperVP a été poursuivi en étroite relation avec celui du logiciel AudioSculpt. Les objectifs principaux atteints en 2004 sont:

·     Augmentation de l'efficacité et de la portabilité du code.

·     Tous les modes d'analyse et transformation de la version de SuperVP dans AudioSculpt-1.2béta ont été implémentés : analyse pics, « mask », « spectral flow markers », synthèse croisée généralisée.

·     Pour tous les traitements et analyses, le nombre de canaux n'est contraint que par la puissance de calcul et le mémoire accessible. La détection et préservation des transitoires dans les fichiers multi-canaux a été améliorée, la synchronisation des transitoires dans les différents canaux est respectée.

·     Généralisation du support des fichiers au format SDIF (F0 et marques en particulier). La re-synthèse à partir d'un fichier SDIF est également possible.

·     Pour faciliter le portage de SuperVP et augmenter l'efficacité, la bibliothèque UDI a été complètement remplacée par la bibliothèque MatMTL. Cela a nécessité une ré-implémentation du « cepstre discret » et de la « détection des pics » en MatMTL.

·     La méthode de synchronisation des phases, originalement fondée sur la publication de Dolson et Laroche, a été remplacée par un nouvel algorithme.

·     Une bibliothèque dynamique a été développée, qui sera utilisée pour la dilatation et la transposition en temps réel.

Participants : A. Roebel.

7.2.       Bibliothèque Pm2

L'objectif d'implémentation, dans AudioSculpt-2, de tous les modes d'analyse connus dans AudioSculpt-1.2béta a entraîné un développement important pour permettre les analyses de partiels en mode harmonique et non-harmonique, et l'analyse en « chord sequence ». Comme le logiciel SuperVP contient un grand nombre de modules et, comme le logiciel Pm2 offrait l'analyse de partiels en mode harmonique, il a été décidé d'intégrer l¹analyse de partiels non-harmoniques dans Pm2. Les travaux réalisés comprennent:

·     L¹implémentation du nouvel algorithme de suivi de partiels non-harmoniques (voir: modèles d'analyse et de synthèse du signal audio).

·     La définition d'un format de stockage des analyses et l¹implémentation de deux modes d'analyse « chord sequence ».

Participants : A. Roebel.

7.3.       Fréquence fondamentale F0

Suite à des demandes extérieures (société MakeMusic), de nouveaux algorithmes d'analyse F0 ont été implémentés pour réduire significativement le temps de calcul. Deux approches ont été utilisées :

·     Le temps de calcul de l'algorithme actuel a été réduit d¹un facteur d'ordre 3.

·     En se basant sur les nouveaux algorithmes étudiés pendant deux stages des années 2002 et 2003, un nouvel algorithme a été intégré en plus de l¹actuel. Ce nouvel algorithme réduit le temps de calcul encore d¹un facteur 3. Par contre il semble que les résultats sont légèrement moins bons. À l'heure actuelle, la nouvelle implémentation n'utilise pas encore toutes les procédures créées lors des stages et une amélioration des résultats semble possible.

Participants : A. Roebel.

7.4.       Easdif/SDIF

Les bibliothèques Easdif et SDIF ont été améliorées sur plusieurs points [Wright04a]. Les améliorations concernent la possibilité d'utiliser Easdif/SDIF dans des applications multi-threads, l'efficacité de la lecture et de l'écriture et la création d'une nouvelle API pour la lecture des fichiers SDIF en accès aléatoire (random access) stockant automatiquement les positions et types des trames déjà lues.

Participants : N. Bogaards, A. Roebel

Collaborations internes : P. Tisserand (équipe Logiciels Libres et Ingénierie du Logiciel), D. Schwarz (équipe Applications Applications Temps-Réel)

7.5.       Bibliothèque MatMTL

Le but de la bibliothèque MatMTL est de faciliter la création de logiciels de calcul vectoriel en permettant de traduire aisément les fichiers sources « .m » de Matlab en C++, avec, en même temps, une forte diminution du coût de calcul. Pendant l'année 2004, la compatibilité de la bibliothèque avec Matlab a été améliorée avec l'implémentation des nouveaux conteneurs du type « bool » et l'implémentation de plusieurs fonctions qui manquaient : extension des fonctions FFT et FFT inverse, LPC, histc, wrapPhase, median, etc.

Participants : A. Roebel.

7.6.       AudioSculpt

La nouvelle version du logiciel AudioSculpt [Bogaards04a] connaît un grand succès. Durant l¹année 2004 le développement a permis de dépasser largement les fonctionnalités de la version précédente 1.2béta. En même temps, ce logiciel est modernisé, accéléré et pourvu de nombreuses fonctionnalités nouvelles et remarquables. Les buts principaux poursuivis ont été la stabilisation du logiciel, l¹amélioration de l¹ergonomie de l¹interface et l¹intégration des derniers algorithmes des « kernels » SuperVP et Pm2. Parmi les nombreux changements, on peut citer:

·     Adoption du format SDIF pour toutes les analyses,

·     Ajout des analyses en partiels, chord seq, fréquence fondamentale et d¹autres,

·     Import et export graphique des sonagrammes,

·     Améliorations de l¹interface graphique, activation des pistes, fichiers multicanaux,

·     Analyse des sons très longs,

·     Mode temps réel.

Participants : N. Bogaards, N. Ellis, A. Roebel

Collaboration extérieure : A. Lithaud (Compositeur).

7.7.       Maintenance

La maintenance des autres bibliothèques et logiciels de l'équipe, notamment Additive, Xspect, Pm, a été continuée. Elle concerne la résolution de problèmes liés aux évolutions des compilateurs et des systèmes opérationnels, et la résolution des bogues.

Participants : A. Roebel.

8.         Publications et communications

Articles parus dans des revues à comité de lecture

[Susini04b] Susini, P., McAdams, S., Winsberg, S., Perry, Y., Vieillard, S., Rodet, X., « Characterizing the sound quality of air-conditioning noise », ACUSTICA united with acta acustica, Août 2004

Actes de congrès avec comité de lecture

[Almeida 04a] Almeida, A. et Vergez C. et Caussé, R. et Rodet X., « Physical model of an oboe: comparison with experiments », International Symposium on Musical Acoustics Nara : Avril 2004, pp. 155-164.

[Almeida 04b] Almeida, A. et Vergez C. et Caussé, R., « Experimental Investigations on Double Reed Quasi-Static Behavior », International Congress on acoustics. Kyoto/Japan : Avril 2004, pp. 155-164.

[Bogaards04a] Bogaards, N., Roebel, A., Rodet, X., « Sound Analysis and Processing with AudioSculpt 2 », International Computer Music Conference (ICMC), Miami, 2004

[Dhaes04a] D'haes, W., « A highly optimized method for computing amplitudes over a windowed short time signal : from O ( K 2 N ) to O ( N log( N )) », IEEE Signal Processing Symposium (SPS), Hilvarenbeek, 2004

[Dhaes04b] D'haes, W., « A highly optimized method for computing amplitudes over a windowed short time signal : from O ( K 2 N ) to O ( N log( N )) », 116th Audio Engineering Society Convention (AES), 2004

[Lambert04a] Lambert, J.P., « PHASE Project », Les journées du design sonore, 2004

[Livshin04b] Livshin, A., Rodet, X., « Musical instrument identification in continuous recordings », Digital Audio Effects 2004, Naples, Italy, 2004

[Peeters04b] Peeters, G., « What is MPEG-7, How to get into MPEG-7 ? », AES International COnference, London, 2004

[Rodet04a] Rodet, X., Escribe, J., Durigon, S., « Improving score to audio alignment: Percussion alignment and Precise Onset Estimation », ICMC, 2004

[Roebel04a] Roebel, A., Zivanovic, M., Rodet, X., « Signal decomposition by means of classification of spectral peaks », International Computer Music Conference (ICMC), Miami, 2004, pp. 446-449

[Vincent04a] Vincent, E., Rodet, X., « Underdetermined source separation with structured source priors », 5th Int. Symp. on ICA and BSS (ICA'04), Granada, 2004

[Vincent04b] Vincent, E., Rodet, X., « Music transcription with ISA and HMM », 5th Int. Symp. on ICA and BSS (ICA'04), Granada, 2004

[Vincent04d] Vincent, E., Rodet, X., « Instrument identification in solo and ensemble music using Independent Subspace Analysis », ISMIR, 2004

[Wright04a] Wright, M., Dannenberg, R., Pope, S., Rodet, X., Serra, X., Wessel, D., « Panel: Standards from the Computer Music Community : 1,2 , 3 4 , 5 , 6 , 1 », ICMC, 2004

[Yeh04a] Yeh, C., Roebel, A., « A new score function for joint evaluation of multiple F0 hypothesis », International Conf. on Digital Audio Effects (DAFx), Naples, 2004, pp. 234-239

[Yeh04b] Yeh, C., Roebel, A., « Physical principles driven joint evaluation of multiple F0 hypotheses », ISCA Tutorial and Research Workshop on Statistical and Perceptual Audio Processing, Jeju, 2004

[Zivanovic04a] Zivanovic, M., Roebel, A., Rodet, X., « A new approach to spectral peak classification », Proc. of the 12th European Signal Processing Conference (EUSIPCO), Vienna, 2004, pp. 1277-1280

Travaux universitaires

[Beller04a] Beller, G., « Synthèse concaténative de la parole par sélection d'unités », Ircam - Université Paris 8, 2004

[Champion04a] Champion, G., « Application du modele additif shape invariant pour la transformation de la voix », Universite Paris 6, 2004

[Dhaes04c] D'haes, W., « Automatic Estimation of Control Parameters for Musical Synthesis », Université d'Anvers, 2004

[Goyeau04a] Goyeau, J.B., « Descripteurs et algorithmes de caractérisation de l'aspect rythmique du son et de la musique », Université Parix VI, 2004.[DEA ATIAM]

[LeBeux04a] Le Beux, S., « Synthèse de la parole à partir du texte », CPE Lyon, 2004

[Schwarz04a] Schwarz, D., « Data-Driven Concatenative Sound Synthesis », Université Paris 6 - Pierre et Marie Curie, 2004

[Tardieu04b] Tardieu, D., « Synthèse et transformation sonore par descripteurs de haut-niveau », Université Aix Marseille II, 2004. [DEA ATIAM]

[Vincent04c] Vincent, E., « Modèles d'instruments pour la séparation de sources et la transcription d'enregistrements musicaux. », IRCAM - Université Paris-6, 2004

Brevet

Brevet « résumé sonore » Ircam/France Télécom, Geoffroy Peeters

Rapports de recherche

[Lambert04b] Lambert, J.P., « Projet PHASE Jouer de la musique avec un bras haptique », 2004

[Mobuchon04a] Mobuchon, P., Gosselin, F., Andriot, C., Lambert, J.P., Guédy, F., Perret, J., Rodet, X., « PHASE: Plate forme Haptique d_'application Sonore pour l'éveil musical. Bilan de fin de projet : pascal MOBUCHON (ONDIM) Florian GOSSELIN (CEA) Claude ANDRIOT (CEA) Jean-Philippe LAMBERT (IRCAM) Fabrice GUEDY (IRCAM) Jérôme PERRET (HAPTION) Consortium PHASE », 2004

[Peeters04a] Peeters, G., « A large set of audio features for sound description (similarity and classification) », 2004

Conférences invitées

X. Rodet, « La voix et la personnalité des voix à la radio », Semaine du Son, Paris, Janvier 2004.

X. Rodet, « Synthèse vocale et d'effet de choeur : état de l'art », Journée d'étude "Voix et  Nouvelles Technologies" , Festival Résonances, Ircam, 21 Octobre 2004.

X. Rodet, « Re-création d¹une voix de Castrat pour le film Farinelli »forum l'Europe des voix, 17 janvier 2004, Cité de la musique, Paris.

Diffusion de connaissances

Organisation de la session « MPEG7 workshop » , 25th International AES Conference - 17th-18th June 2004 - London, UK.

Colloques et séminaires

G. Peeters : Cours « Formation numérisation », Mai 2004

G. Peeters : Séminaire Ircam « descripteurs et classification des sons » , Janvier 2004

G. Peeters : Séminaire ENST « descripteurs et classification des sons » , Novembre 2004

G. Peeters : Conférence Résonance, «Navigation dans un morceau », conférence SHF, octobre 2004

G. Peeters : Conférence Résonance, «Outils d¹aide à l¹écoute», Journée Education Nationale, octobre 2004

A. Roebel : Transient detection and preservation in the phase vocoder

rencontre LMA/IRCAM

A. Almeida : Instruments à anche double, Présentation à la Journée LMA /IRCAM, Marseille LMA, Janvier 2004

 

Emissions radiophoniques et télévisées, entretiens journalistiques, animations

G. Peeters : Entretiens pour Article Les Inrockuptibles, « La musique sans chaine », avril 2004.

G. Peeters : Entretiens pour Article 01Net,     « L¹ircam recherche la chaine HIFI du futur ». http://www.01net.com/article/254550.html, octobre 2004.

G. Peeters : Entretiens pour Article Télérama-Sortir « Cinq bonnes raisons d¹aller à l¹Ircam », supplément Paris, décembre 2004

X. Rodet : Interview pour la Radio Suisse, 24 May 2004

X. Rodet : Interview avec G. Beck pour la Deutschlandfunk Radio de Cologne, 26 May 2004

X. Rodet : Interview pour l'Express, 14 Octobre 2004

X. Rodet : Interview avec : P. Istria de « Ca m'intéresse , 9 décembre 200