Rapport d'activité 2001

3. Analyse et synthèse des sons

L'équipe Analyse/Synthèse est une équipe de recherches et de développement en analyse,
transformation et synthèse des signaux sonores. L'analyse de sons comprend toutes les
méthodes permettant d'extraire et de structurer automatiquement tel ou tel type l'information du signal, comme la fréquence fondamentale ou des évolutions spectrales qui déterminent la hauteur et le timbre du son perçu. Bien d'autres information non strictement musicales intéressent des domaines comme l'acoustique industrielle, le design sonore et le multimédia. On peut citer, par exemple, l'indexation dans ce dernier cas. Ces méthodes sont fondées sur le traitement du signal, les statistiques, la théorie de l'information, les techniques d'apprentissage et la reconnaissance des formes mais aussi sur la connaissance de la perception auditive et de la production sonore par les systèmes acoustiques. La transformation et la synthèse des sons permettent de répondre d'abord aux demandes des musiciens pour de nouveaux sons et de nouvelles musiques. Un exemple typique est la synthèse d'un choeur virtuel par un ordinateur sur la scène d'un opéra. Transformation et synthèse des sons trouvent également de nombreuses applications dans des domaines comme la téléphonie mobile, les jeux vidéos, l'aide à la navigation ou la réalité virtuelle en général. Analyse et synthèse requièrent la conception et de développement de modèles du signal sonore, par exemple le modèle du signal d'un violon ou d'une automobile et de de modèles des systèmes acoustiques, par exemple le modèle du fonctionnement physique de la trompette. Ces modèles sont implantés dans des programmes informatiques exécutés par des ordinateurs PC ou Macintosh. Enfin l'équipe développe des logiciels mis à la disposition d'utilisateurs du public, musiciens mais aussi ingénieurs du sons, acousticiens et amateurs. Les travaux de recherche des années précédentes ont abouti entre autres à deux thèses soutenues en 2001. Des avancées importantes ont ainsi été obtenues dans le domaine des modèles de signaux comme le modèle Pitch Synchronous Overlapp Add, la modèlisation physique de la trompette ou dans la caractérisation des sons. Ce dernier domaine est une activité nouvelle tant pour l'équipe Analyse-synthèse que pour la communauté informatique musicale en général. Son développement actuel est lié à celui du multimédia et des réseaux, créations d'oeuvres visuelles et audio, normes MPEG-4 ou MPEG-7. En collaboration avec d'autres équipes de l'Ircam, l'Analyse-synthèse a oeuvré également pour la norme MPEG-7 et pour la définition d'autres standards comme le Sound Description Interchange Format (SDIF). Il n'est donc pas surprenant que ce type d'activité connaisse pour l'année 2001 une forte croissance avec trois projets, l'un Européen, un autre Français et le dernier privé. Cependant les autres activités de recherche sont accentuées également, en particulier sur l'acquisition automatique des paramètres de contrôle, que ce soit par inversion des modèles ou par apprentissage, deux thèmes nouveaux. Enfin l'activité de développement a cru aussi avec deux logciels principaux, dont un entièrement nouveau (AudioSculpt-2) pour les musiciens qui, chacun comprennent une part d'interface graphique utilisateur et une part de moteurs de calcul. Finalement le travail avec les musiciens, compositeurs et la pédagogie se traduit par de nombreuses oeuvres et installations utilisant les travaux de l'équipe, comme l'opéra de P. Manoury.

3.1 Activités de recherche

3.1.1 Modèles de signaux

Opérateur de réassignement et Estimation de partiels

- Estimation du début des partiels

Les opérateurs de réassignement sont appropriés pour trouver le bon
moment pour initialiser un nouveau partiel d'un modèle additif.
Cette   application a   été étudié   pour améliorer   les résultats
d'adaptation dans le modèle d'analyse additive PBench, mais aussi pour améliorer les
résultats du logiciel Additive.   Quand le bloc courant de l'analyse ne couvre qu'une petite
part de la fenêtre, l'initialisation ne peux pas être faite correctement à cause
du manque du données.
    Deux indicateurs pour le dégré de couverture de la fenêtre par le
partiel ont été étudiés, l'opérateur standard de réassignement du
temps et l'opérateur différentiel de l'amplitude selon le temps normalisé
par l'amplitude elle même. On a montré qu'en développant la formule mathématique du
deuxième indicateur, on trouve un résultat intéressant: la
différenciation de l'amplitude selon le temps donne la même formule
que la différenciation de la phase selon le temps, avec la différence
que la première est la partie réelle de la valeur complexe et la deuxième est
la valeur imaginaire.
    En simulant les débuts de partiel avec diffèrents types de transition
on a trouvé que les deux opérateurs sont presque équivalents. Et le
seuil optimal a été déterminé pour que le partiel couvre la
fenêtre au moins à moitié.

- Estimation de la fréquence et de la pente fréquence pour un partiel non
stationnaire.

La seule solution connue pour estimer analytiquement la fréquence et sa pente à
partir d'une TFCT est reliée à l'utilisation d'une fenêtre
Gaussienne. Pour ce cas il existe un algorithme qui
permet de détecter la fréquence et sa pente exactement. Cet
algorithme a été étudié. On a trouvé que, à cause des effets de
troncature de la fenêtre Gaussienne, l'estimation n'est suffisamment exacte que
pour le cas d'une taille de fenêtre très grande. Pour améliorer
l'estimation avec une taille de fenêtre normale, l'utilisation de
l'opérateur de réassignement a été étudiée avec la contrainte de n'utiliser
que la fenêtre courante pour estimer la fréquence et sa pente. Deux
solution ont été trouvées. Dans le premier cas on utilise le calcul des
fréquences instantanées pour le pic dans la fenêtre courante et aussi
dans la fenêtre un échantillon avant et après. Avec cette information
on obtient l'estimation de la pente en utilisant l'évolution de la
fréquence pendant la durée de la fenêtre. L'autre possibilité est de
calculer la différenciation des opérateurs de réassignement suivant le
temps. Le résultat peut être calculé exactement comme un opérateur de
réassignement en utilisant deux nouvelles fenêtres. Les résultats
sont les mêmes pour les deux cas. Si l'on estime la pente
fréquentielle pour une signal de parole, les vecteurs fréquentiels
tracent clairement les partielles sinusoïdaux. Un problème est que la
méthode fonctionne bien pour les fenêtres du type spline mais est moins robuste
avec les fenêtre standard (hamming, hanning,...). Apparemment les
fenêtres utilisées pour le calcul de la différenciation des opérateurs
de réassignement sont nulles à la fréquence zéro et la robustesse
dépend donc de la forme du pic central du spectre de la fenêtre. Cette
dépendance doit être étudiée plus profondément.

- Modèle shape invariant pour la parole

Le modèle shape invariant proposé par McAuley et
Quartieri en 1992 a été étudié pour améliorer les résultats obtenus par les modèles additifs en traitement de la parole. Différentes méthodes de synchronisation de la phase
pour les partiels ont été essayés avec le modèle additif PBench et un
signal de parole simple contenant seulement de la parole voisée. Les
résultats obtenus avec la méthode shape invariant sont toujours
meilleurs que toutes les autres méthodes considérées et cette méthode
est la seule qui a permit d'obtenir une voix synthétique correcte lorsque
la dilatation est très grande. Pour cette étude, tous les informations
nécessaires pour effectuer la synchronisation, notamment la sélection
du partiel fondamental, ont été données à la main. Pour l'avenir
un algorithme doit être développé pour n'utiliser que les informations déjà contenues dans
l'ensemble des partiels. L'application du modèle shape invariant avec
le vocodeur de phase est à étudier.

Responsable : A. Roebel
Collaboration interne : G. Peeters, X. Rodet

Estimation de la fréquence fondamentale avec des modèle probabilistes

L'estimation de la fréquence fondamentale est une étape clé de nombreuses analyses (additve, PSOLA, etc..). Il apparait nécessaire de disposer d'un programme d'estimation plus robuste et plus précis que celui existant à ce jour (F0).

Le première étape a été consacrée a réimplanter la méthode de B.
Doval en Matlab et à étudier la sensibilité des resultats
obtenus aux paramètres du modèle. La nouvelle implémentation a aussi été faite de façon à permettre
d'étudier également d'autres algorithmes d'estimation probabilistes.

Concernant le premier but, les stagiaires ont montré que le résultat
obtenu dépend sensiblement du modèle de bruit.   Le problème
ici est que les paramètres sont inconnus et qu'ils ne peuvent pas être
estimés à partir des données. En conséquence, un nouveau modèle
probabiliste a été développé utilisant des paramètres qui sont plus
directement relié aux paramètres du signal connu, la relation entre
signal et bruit par exemple.   Fondé sur plusieurs méthodes de
caractérisation du signal développées par B. Doval, la nouvelle méthode
utilise une mesure distance, la divergence de Kullback-Leibler suivant un
modèle probalibiliste Gaussien pour obtenir les probabilités des
fréquences fondamentales considérées. Les résultats obtenus avec ce
modèle ont une erreur du même ordre que l'ancien modèle F0.
    Le but du troisième stage était d'étudier plus profondément les
résultats du nouveau modèle probabiliste. Les modèles de signaux
utilisés ont été modifiés pour les rendre plus proches des spectres
rencontrés. Afin de pouvoir comparer les résultats obtenus de façon
efficace, l'interface graphique associée au programme d'estimation a subi
quelques changements.
    Un avantage du modèle est que les paramètres du modèle peuvent
être adaptés de façon simple pour optimiser la validité du résultat.
Pour la première approche d'adaptation, la décision a été prise d'adapter
seulement les paramètre du modèle Gaussien de base, c'est à dire la variance
relative du bruit, celle relative aux fréquences probables et la
pondération du bruit par rapport à ces fréquences.   Ces paramètres
permettent d'adapter le modèle en utilisant seulement les distances
déjà précalculés, ce qui rends l'adaptation plus efficace Un nouveau
programme a donc été réalisé afin de calculer les gradient nécessaires.

Responsable : A. Roebel
Participant : M. Durand (stage)
Collaboration interne : G. Peeters, X. Rodet

Synthèse concaténative par sélection d'unités sonores

Les différents aspects de ce travail sont l'estimation, la
classification et la structuration de paramètres, l'utilisation d'une
base de données hétérogènes de sons et de caractéristiques, et une
recherche sur la conception et l'architecture logicielles fondées sur
des composants réutilisables.
La synthèse par concaténation et transformation d'unités sonores, Caterpillar, a été
présentée aux Journées Jeunes Chercheurs en Acoustique Musicale [Schwarz01b].
L'année 2001 a vu deux développements importants:
- Un système d'alignement sonore (voir dessous) à été mis au point avec
Nicola Orio (systèmes temps-réel) pour la segmentation des
enregistrements d'instruments et pour la préparation des bases
d'unités.
- Avec l'aide de Sylvie Noël (stagiaire), une base de données
relationnelle (sous PostgreSQL) a été conçue et mise au
point. Elle est interfacée avec le système de synthèse concaténative
Caterpillar par des extensions pour Matlab qui accèdent le serveur
de base de données PostgreSQL directement. Ceci permet le stockage
sécurisé (concept de transactions) de grandes quantités de données

Responsable : X. Rodet.
Participant : D. Schwarz (thèse)
Stagiaire: S. Noël
Collaboration interne : N. Orio (systèmes temps-réel), G. Peeters, W. D'Haes,
A. Roebel

Alignement d'un enregistrement avec sa partition

L'alignement de musique est l' association d'événements dans une
partition avec des points temporels d'un signal audio. Le signal est
donc segmenté selon les évènements de la partition. Une nouvelle
méthode d'alignement automatique a été développé, fondée sur le
"Dynamic Time Warping" (DTW). Elle utilise la structure des pics
spectraux, augmentée par un modèle d'attaques et de silence. La
méthodologie peut traiter des signaux audio considérés difficile à
aligner, comme la musique polyphonique, des trills, ou des séquences
rapides. Une optimisation de la représentation du chemin d'alignement
rend la méthode applicable aux fichiers sonores volumineux.
Cette méthode a été décrite et présenté dans [Schwarz01a].

Responsable : X. Rodet
Participants : D. Schwarz (thèse), N. Orio (systèmes temps-réel)

Projet du Palais des Beaux-Arts de Bruxelles

En parallèle à la construction de l'orgue du Palais des Beaux-Arts
(PBA) de Bruxelles par G. Westenfelder et la société Syncordia,
l'IRCAM a été chargé de concevoir le prototype d'un système de
synthèse sonore pouvant s'adjoindre à l'orgue (de facture classique).
Ce projet met en jeu les compétences des deux équipes Acoustique des
salles et Analyse-Synthèse.
L'équipe analyse-synthèse a préparé un ensemble de
procédures permettant d'analyser finement un corpus d'échantillons
sonores prélevés sur un orgue acoustique. L'analyse repose sur un
modèle nouveau de séparation de sources déterministe (somme de
sinusoïdes) et stochastique (bruit blanc filtré par des résonances). Ces
analyses sont effectués en utilisant les bibliothèques de l'équipe (en
particulier Pbench d'Axel Röbel) et une extraction de f0 (yin,
développée par Alain De Cheveigné, équipe pcm).
L'analyse entièrement automatique d'un ensemble d'échantillons
représentant un ou plusieurs registres a donc été validée. Ces analyses
sont exportées en format SDIF. Une intégration dans Max/MSP au sein
d'un sampler dédié est en cours.

Responsable : X. Rodet
Participant : V. Rioux
Collaboration interne : O. Warusfel (Equipe Acoustique des Salles)

Séparation de signaux audio monocapteur par des techniques statistiques

Ce travail, mené en stage de DEA ATIAM par B. Delezoide et E. Vincent, et
poursuivi en thèse par E. Vincent, a pour but d'extraire la partie jouée
par chaque instrument (ou source) dans un enregistrement monocapteur d'un mélange
d'instruments (ou de sources).
L'analyse en sous-espaces indépendants (ISA) sur le spectrogramme est une
méthode permettant de résoudre partiellement le problème dans le cas
aveugle (on ne connaît rien des sources, ni des caractéristiques du
mélange). Elle consiste à séparer le module su spectrogramme du signal en
plusieurs composantes de spectres "indépendants" au sens statistique, puis
à les regrouper selon des critères de distance entre ces spectres.
Le stage de DEA a permis d'implémenter cette technique et d'étudier de
nombreux points encore flous sur ses hypothèses et son fonctionnement.
De bons résultats ont été obtenus pour l'analyse de bruits "naturels" ou
l'extraction d'attaques, mais le modèle reste insuffisant pour une
extraction de qualité des instruments d'un extrait musical.
Le travail de thèse a débuté par une étude bibliographique de la
séparation de sources, et particulièrement des modèles permettant
l'utilisation de connaissances a priori sur les instruments pour
améliorer la qualité de séparation (cas semi-aveugle). Deux directions ont
pour l'instant été retenues : l'ISA et les Modèles de Markov Cachés (HMM).
Une étude complémentaire du modèle de l'ISA a fourni des résultats
encourageants (prise en compte de l'indépendance à la fois des spectres et
des amplitudes temporelles des composantes, utilisation du spectrogramme
complexe) et devrait se révéler utile dans le cadre des HMM
(l'apprentissage par HMM est facilité lorsqu'on l'initialise par une bonne
approximation a priori).

Responsable : X. Rodet
Participant : E. Vincent (DEA ATIAM, thèse), B. Delezoide (DEA ATIAM)
Collaborations internes : A. Roebel, groupe de travail sur la déconvolution aveugle
de sources avec des participants des équipes PCM et Acous. des Salles
Collaborations externes : J.-F. Cardoso (ENST), S. Dubnov (université Ben
Gourion, Israël), GdR ISIS équipe METISS (IRISA Rennes) et IRCCyN (Ecole Centrale de Nantes)

3.1.2 Caractérisation des sons

Dans le projet CUIDADO, l'équipe A/S est en charge de la description des sons
("samples") et de la musique à partir de l'analyse du signal sonore .
Pour les des "échantillons" ou "samples", un ensemble de descripteurs, de procédures
d'extraction automatique, ainsi que de relations permettant de déterminer des
paramètres de hauts-niveaux à partir de ces descripteurs ont été déterminés.
Les descripteurs sont divisés en grandes catégories: descripteurs temporels,
descripteurs d'énergie, descripteurs du spectre, descripteurs harmoniques,
descripteurs perceptifs. Ces descripteurs peuvent ensuite faire l'objet d'une
modélisation de leur évolution temporelle. Ce dernier point doit encore être amélioré.
Le résultat est ensuite utilisé pour des recherches par similarité de sons ou
dans un système de classification automatique des sons en classe d'instruments
utilisant d'une part l'analyse factorielle discriminante afin de déterminer un
nombre réduit de descripteurs pertinants et d'autre part une classification de
type probabiliste (modèle gaussien multi-dimensionnel) ou de type K Plus Proche
Voisin. Une maquette de ces fonctionnalités à été proposée.
Pour les des "échantillons", l'équipe A/S est en charge du développement d'un système
de reconnaissance d'extrait musicaux dans une large base de données (Web Music
Monitoring System) fondé sur la technologie appelée "siganture sonore" ou "fingerprint". Les enjeux de
cette année on été d'évaluer le système pré-existant et de l'améliorer en ce qui concerne
la résistance du système aux dégradations du son (variation de volume,
compression, égalisation). Une maquette de ces fonctionnalités à été proposée.

Responsable : X. Rodet
Participant : G. Peeters
Collaborations internes : développeurs ECRINS et Descripteurs, Equipe PCM

Projet ECRINS, Environnement de Classification et Recherche Intelligente de Sons

Ce projet est une collaboration entre l'Ircam, l'Ina-GRM et la société
Digigram. L'objectif du projet est de développer des outils, destinés aux
professionnels de la production sonore, proposant différentes interfaces
de navigation à travers une grande base de données d'échantillons sonores
à partir de descripteurs de haut niveau (recherche par contenu, édition).
Dans le cadre de ce projet, un ensemble de méthodes de calculs de
descripteurs a été établi [Tisserand01b] [Tisserand01c]. Ces méthodes de
calculs ont été implémentées sous forme d'une bibliothèque écrite en C++ qui
a été intégrée dans le logiciel Xtrack du partenaire Digigram .
Une validation de certains de ces descripteurs a été effectué en
collaboration avec l'équipe PCM.
La recherche d'algorithmes de classification a débouché sur
l'implémentation de prototypes sous Matlab. Ces prototypes sont en cours
d'implémentation sous forme d'une bibliothèque C++ afin d'être incorporés
à des applications.
Afin de pouvoir communiquer efficacement entre les différents partenaires,
un logiciel permettant de stocker des informations dans les fichiers sons
a été écrit. Il permet ainsi de manipuler facilement les fichiers sons
tout en conservant une description de leur contenu.

Responsable: X. Rodet
Participants : P. Tisserand , V. Rioux
Collaborations internes : G. Peeters et Equipe PCM
Collaborations externes : INA-GRM, Digigram

Projet Descripteurs pour la synthèse

Dans le cadre d'une thèse sur la génération et l'utilisation de sons synthétiques dans des applications multimedia et dans un contexte MPEG4, le CNET-France-Télécom (FT) développe un outil de génération de fichiers sonores au format Structured Audio (.mp4).
L'IRCAM assure la direction de ce travail de thèse (X. Rodet). Cet outil devra
permettre de synthétiser à terme toute une panoplie de signaux sonores susceptibles
d'être utilisés dans les applications intéressant FT. Il y a naturellement une profonde interaction entre ce projet, le projet Cuidado et le projet ECRINS. L'outil comprend un système d'analyse de signaux naturels et avec traduction en paramètres de bas niveau. La deuxième étape du travail nécessaire pour réaliser l'outil de génération de fichiers sonores est faite par l'équipe A/S dans le cadre d'un contrat France Télécom R&D. Cette analyse doit permettre d'extraire des paramètres de haut niveau, permettant aussi une caractérisation des signaux pour leur utilisation future dans des applications d'indexation. Cette analyse a pour but essentiel de servir à la resynthèse d'un signal perceptuellement semblable au signal analysé, en dérivant les paramètres nécessaires à la synthèse à partir des paramètres de haut niveau. L'ensemble des sons étant extrêmement vaste, il a été
indispensable de se limiter à une classe de sons constituée des sons de courte durée, de l'ordre de quelques secondes, et ne présentant pas d'évolution importante du timbre, tels que les notes isolées des instruments de l'orchestre. Le calcul des descripteurs est fait au moyens de programmes prenant en entrée les descripteurs de bas niveau fournis par les programmes d'analyse et fournissant en sortie les valeurs des descripteurs de haut niveau. Les descripteurs sont organisés de façon hiérarchique : plus on descend dans l'arborescence, plus la qualité de re-synthèse est grande, au prix cependant d'un surcoût en sensibilité et en capacité de stockage. La représentation de ces descripteurs est faite dans le dans le standard SDIF (cf.
http://www.ircam.fr/equipes/analyse-synthese/sdif/index.html.). Une base de
données de sons destinée aux tests des programmes de calcul des descripteurs et à
l'évaluation des descripteurs a été constituée et les programmes évalués sur cet
ensemble.

Responsable : X. Rodet
Participant : J.P. Lambert
Collaborations internes : G. Peeters, P. Tisserand
Collaborations externes : J.B. Rault et G. Fayemendi (France Télécom R&D)

3.1.3 Modèles physiques

Méthodes d'inversion de systèmes dynamiques,
modèles de la production de la voix et d'instruments de musique

Durant la première année de thèse, nous nous étions concentrés sur une étude
bibliographique de la modélisation physique des vents et de la théorie
des systèmes dynamiques. Ceci nous avait poussé à mettre notre système
sous la forme de modèles paramétriques et particulièrement de
systèmes différentiels non linéaires à retards (S.A.R.), bien adaptés
à l'inversion. L'échec lors de l'identification sur un modèle de Prony, nous avait conduit
à refaire une étude physique des résonateurs des vents : d'abord sur
le rayonnement (de type sphérique), puis sur le résonateur en l'approchant
par une concaténation de tronçons de cônes et en approchant le rayonnement
par celui d'une calotte sphérique. Durant la deuxième année de thèse, nous avons conçu puis appliqué un
principe de changement de coordonnées implicites qui transforme une
E.D.P. d'une grandeur scalaire X(x,y,z,t) en une autre E.D.P.
d'une grandeur X2(s,t) de façon équivalente.
L'application de cette méthode à l'équation des ondes permet donc
d'améliorer sensiblement les méthodes trouvées dans la littérature, ainsi que
celle précédemment étudiée, tout en conservant une faible complexité algorithmique
pour la simulation (permettant d'envisager à terme le temps-réel).
Cette méthode nous a également permis de trouver des résultats physiques
plus fondamentaux (systèmes de coordonnées particuliers, nouvelles
justifications d'approximations) et a pu être étendue à des modélisations
plus complexes prenant en compte les phénomènes de couches limites
ou de vibration de parois.

Responsable: X. Rodet
Participant: T. Hélie
Collaborations internes : C. Vergez,
Collaborations externes: Mines de Paris

Etude des écoulements dans les anches

Bien que leur principe de fonctionnement soit similaire aux anches simples, les
anches doubles présentent des particularités qui rendent leur étude plus
complexe. Les modèles à anche simple doivent être modifiés pour inclure les
détails physiques responsables des différences de son entre les deux types
d'anche. Cependant, les modèles conçus jusqu'à présent pour les anches doubles
semblent n'avoir réussi qu'à mettre en évidence la difficulté théorique et
pratique posée par ces instruments et par les écoulements y ayant lieu.
Le but de cette thèse est d'arriver à un modèle physique pour les instruments à
anche double, l'étude physique de l'instrument mettant l'accent en particulier
sur les caractéristiques de l'écoulement d'air entre les deux anches. Cela nous
permettra d'identifier les structures et phénomènes décisifs dans le
fonctionnement de l'instrument et d'extraire des paramètres réalistes pour
appliquer dans le modèle.
Le travail de thèsea commencé par une étude bibliographique des modèles utilisés pour
les anches simples, et des recherches d'explication pour le comportement
particulier des anches doubles. Les idées les plus prometteuses indiquent que
les différences se situent au niveau du couplage entre le jet et la colonne
d'air de l'instrument, notamment au niveau du recollement éventuel du jet, de
la récupération partielle de pression ou de la dissipation turbulente et/ou
visco-thermique le long des parois de l'anche.
Le matériel existant à l'IRCAM permet de faire des mesure du champ de pression
-- oscillations et variations de pression statique le long de l'anche -- et
d'observer le déplacement de l'anche simultanément avec les mesures de
pression. Les expériences menées jusqu'à présent ont mis en évidence les
fluctuations de pression dues à la turbulence, et ses variations spatiales et
temporelles, en particulier la correlation entre l'intensité des fluctuations
et l'onde acoustique.
Dans le dernier trimestre un contact a été établi avec le LIMSI à Orsay, pour
pouvoir faire des mesures de champ de vitesse de l'écoulement dans
l'anche double, ou dans un modèle simplifié de celle-ci. En effet, les mesures
de vitesse à anémométrie (Laser Doppler et par PIV -- corrélation d'images de
particules) sont très précises, mais imposent des contraintes sur les
écoulements et sur les conduits qui les contiennent.
Simultanément à ces études, on a développé un prototype de modèle de hautbois,
qui reste néanmoins très simple. Il servira à tester les modèles déduits des
expériences, ainsi qu'à générer des hypothèses qu'il faudra tester par d'autres
expériences. Ce prototype a été testé sous le logiciel Matlab, et il a été
porté en C. L'adaptation du code à jMax est en cours, et une simulation en
temps réel est envisageable à court terme.
Ce modèle est constitué d'un excitateur semblable à l'anche simple, mais qui
inclut des pertes de charge le long de l'anche. Cela introduit une hystérésis
dans la caractéristique pression/débit, qui est responsable d'un comportement
de l'anche qualitativement différent -- l'anche peut, par example, transiter
soudainement d'un état ouvert à un état fermé. Ce modèle est couplé à une ligne
à retard avec des filtres de réflexion et propagation pour simuler le
résonnateur. La complexité de l'excitateur pose des problèmes pratiques pour la
conception de la simulation numérique: il faut, en effet résoudre trois
équations différentielles non-linéaires par une méthode itérative.

Responsable : X. Rodet
Participant : A. Almeida (thèse)
Collaborations internes : R. Caussé, C. Vergez, Equipe Acoustique Instrumentale

3.1.4 Contrôle de la syntèse

Etude du geste instrumental

Marcelo M. Wanderley a fini sa these de doctorat ATIAM sur le controle
gestuel de la synthese sonore et l'interaction interprète-instrument dans le contexte du jeu instrumental avec des nouveaux instruments. La soutenance a eu lieu le 7 Juin 2001 à
l'Universite Paris VI et le candidat a obtenu la note maximale.

Responsables : X. Rodet
Participant : M. Wanderley (thèse)
Collaborations internes : Equipe Systèmes temps-réel
Collaborations externes : P. Desain, P. Depalle

Méthodes par apprentissage pour l'estimation des paramètres de contrôle d'algorithmes de synthèse

Dans le contexte de la recherche sur l'estimation des paramètres de contrôle
(cf. rapport d'Activités 2000 et [D'haes'01]) un nouvel algorithme est
proposé pour la recherche des K plus proches voisins dans un espace
multidimensionel. Cet algorithme peut se scinder en deux étapes:
1) décomposition hiérarchique
2) recherche dans la décomposition.
La décomposition hiérarchique est réalisée en
utilisant des hyperplans déterminés par analyse en composantes principales.
Pour cette raison l'algorithme a été nommé : séparation en composantes principales
(principal component split). La recherche parcourt l'arbre et évite d'évaluer des noeuds
qui ne peuvent pas contenir de plus proches voisins. On a montré que cette
décomposition optimise la probabilité que des vecteurs qui sont proches soient groupés
ensemble. Ceci résulte en un algorithme très efficace. On a montré que pour un nombre de
dimensions inférieur ou égal á 4 le temps de calcul croît de manière logarithmique avec le
nombre de vecteurs. Deux article ont été proposés pour publication. L'un pour une conférence [D'haes02b] et l'autre pour un journal [D'haes01a].

Responsable : X. Rodet
Participant : W. D'Haes (thèse)
Collaborations internes : T. Hélie
Collaborations externes : Université d'Anvers

3.2 Activités de développement

3.2.1 Développements généraux

Développement du standard SDIF et de ses applications

Ce standard de format de fichier, plateforme indépendant, extensible
et en accès libre, spécifie très précisemment les types de données de
description des signaux audio et leur représentation. Il permet donc à
des logiciels différents de communiquer immédiatement dès lors que
leurs entrées/sorties sont conformes au standard. Il facilite
également la maintenance des fichiers de données grâce aux
informations annexes encapsulées dans le fichier, et en permettant à
des données hétérogènes de co-exister dans une seul fichier. Une
bibliothèque de fonctions C de lecture/écriture, ainsi que des
applications, ont été développés et mises en licence "open source" sur le site de l'équipe
http://ircam.fr/anasyn/sdif.
Durant l'année 2001, des extensions concernant la performance de la
bibliothèque et la simplicité de son API (Application Programming
Interface) ont été développées. D'autres applications ont permis de
faciliter l'accès aux fichiers SDIF, par exemple une
application d'édition et visualisation graphique des données des
fichier SDIF.
La librairie SDIF a connu diverses améliorations pour les
utilisateurs. Le changement le plus important est la réorganisation
de la gestion des types. A partit de la version 3.4, les types par défaut qui sont
utilisés, s'il n'y a pas de fichier SdifTypes.STYP, sont les mêmes que
les types définis par les fichier SdifTypes.STYP par défaut. De plus,
tous les bugs rapporté par les utilisateurs externes ont été fixés.

Responsable : A. Roebel
Participants : A. Roebel, D. Schwarz, P. Tisserand
Collaborations externes : M. Wright, Université de Berkeley-CNMAT

SuperVP

Le logiciel Super-VP est un Vocodeur de Phase développé à l'Ircam il y a une dizaine d'années. C'est le moteur de calcul utilisé en particulier dans le logiciel AudioSculpt. Il est apparu indispensable de pallier à certains problèmes de la version actuelle, et d'intégrer des améliorations apparues récemment dans la technique du vocodeur de phase. Ce travail vient en complément de la nouvelle version d'AudioSculpt développée sur Macintosh. Le logiciel Super-VP a été réorganisé profondément afin de faciliter son fonctionnement propre. Les travaux ont été effectués en parallèle avec le développement d'Audiosculpt 2.0. Concernant Super-VP, les modules dilatation temporelle, rééchantillonage, filtrage et analyse (fft et lpc) ont été retouchés, avec une réorganisation cependant limitée par la structure existante du logiciel. Malgré ces restrictions plusieurs améliorations de l'organisation interne ont été effectuées. Les résultats d'une dilatation ou d'un rééchantillonage sont de haute qualité relativement à la qualité que permet un vocodeur de phase. Le synchronisation de phase de la méthode Dolson/Laroche a été implantée et a amélioré les fonctions de transfert pour les amplitudes des partiels non stationnaires. Les améliorations obtenues concernant la "phasiness" pour les signaux parole sont faibles et l'implantation d'un modèle "shape invariant" apparait nécessaire.

Responsable : A. Roebel
Collaboration externe : D. Ralley, A. Lithaud

Outils de visualisation et d'analyse de signaux Xspect

Comme l'ont montré encore de récents travaux de post-traitement pour des films, le logiciel de visualisation et d'analyse de signaux Xspect, écrit en X/Motif sous Unix, est un outil quotidien essentiel aux travaux de l'équipe: http://www.ircam.fr/equipes/analyse-synthese/xspect/index-e.html
En particulier il a été nécessaire d'améliorer et d'accélérer le calcul et le tracé des Sonagrammes. Certains problèmes de ce logicielle ont été résolus. Le changement le plus important est l'utilisation de la librairie libaudiofile pour accéder le fichier sons. Avec cette librairie plusieurs nouveaux formats sont accessibles avec Xspect. D'autres travaux de fond ont été effectués sur le code, en particulier concernant la ré-initialisation des variables.
Le traitement des couleurs pour le spectrograme a été réimplanté.

Responsable : A. Roebel
Participant: A. Roebel

Développement d'une Interface graphique pour additive

Pendant le projet fin d'études de Hans Van Gompel (Université d'Anvers, Informatique)
encadré par Wim D'haes, une interface graphique pour additive a été réalisée en
Java. De plus, l'interface permet de visualiser les données SDIF. Ceci est réalisé
par une couche logicielle d'interface C (JNI, Java Native Interface) qui permet d'utiliser la librairie C
existante.

Responsable : X. Rodet
Participant : W. D'Haes (thèse), H. Van Gompel (stage)
Collaborations externes : Université d'Anvers

3.2.2 Développement sur Macintosh

Logiciel AudioSculpt-2

Une toute nouvelle version du logiciel AudioSculpt a été continuée en 2000. Le cahier des charges a été élaboré en 1999-2000 par A. Ricci. L'écriture du logiciel, commencée en 2000, a été poursuivie par D. Ralley en suivant les spécifications précises du cahier des charges et en collaboration avec le développement de Diphone. En particulier, des classes C++ et des librairies sont partagées par les deux logiciels, ce qui diminue la charge de développement et accélère la mise au point. Un prototype est apparu au printemps 2001 permettant de tester les choix et les résultats avec des personnes de l'Ircam. Une version expérimentale a été produite pour l'automne 2001 pour être soumise à des béta-testeurs
puis au Forum. De nouvelles versions ont été développée depuis. AudioSculpt-2 est dors et déja utilisable.

Responsable : X. Rodet
Participant : D. Ralley
Collaborations internes : A. Roebel, A. Lefèvre, équipes Production et Pédagogie
Collaboration externe : A. Lithaud

Logiciels Diphone-Studio

Le développement de l'ensemble Diphone Studio s'est poursuivi et de nombreuses améliorations on été faites pendant l'année 2001:
- Ajout de l'analyse des enveloppes spectrales dans AddAn, prise en compte des enveloppes spectrales dans la synthèse additive.
- Implantation du language de définition des actions effectuées sur les applications de Diphone-Studio.
- Possibilité de définir des enchainement d'actions (comme des analyse, des synthèses, la création et la synthèse d'une séquence) dans ce language, accepté et interprété par les applications de Diphone-Studio.
- Nouvelle méthode d'analyse additive, Hidden Markov Model (HMM), en particulier
pour les sons inharmoniques.
- Segmentation automatique des sons pour la définition des diphones et la création directe de dictionnaires.
- Exécution de plusieurs séquences en parallèle avec un temps commun, utilisant des plugins de synthèse quelconques.
- Possibilité de substituer des paramètres d'une séquence dans un autre.
- Traitements (analyse et synthèse) de fichiers de sons jusqu'à 24 bits.

Responsable : X. Rodet
Participant : A. Lefèvre
Collaborations internes : D. Ralley, équipes Production et Pédagogie

3.3 Liste des participants

Personnel sous contrat de travail

Responsable: Xavier Rodet
Chargés de recherche et de développement: Geoffroy Peeters, Patrice Tisserand, Axel Roebel et Jean-Phillipe Lambert
Chargés de développement : Adrien Lefèvre et David Ralley

Stagiaires et étudiants

Geoffroy Peeters, DEA ATIAM, Université Paris-6
Marcello Wanderley, Thèse, DEA ATIAM, Université Paris-6
Diemo Schwarz, Thèse, DEA ATIAM, Université Paris-6
Thomas Hélie, Thèse DEA ATS, Paris XI-Orsay
Wim D'Haes, Thèse , Université d'Anvers
André Almeida, Thèse , Université Paris-6
Emmanuel Vincent, ENS Ulm, DEA ATIAM puis thèse Ulm
Bertrand Delezoide, ENS Cachan, DEA ATIAM puis thèse Paris-6
Michael Durand, stage INSA Lyon
Sylvie Noel, ENSEEIHT (Ecole Nationale Supérieure d'Electrotechnique, d'Electronique, d'Informatique, d'Hydraulique de Toulouse)
Sébastien Bailleul, stage Université d'Orléans

Consultants

Alain Lithaud, compositeur

3.4 Informations annexes

3.4.1 Publications

Articles parus dans des revues à comité de lecture

[Vergez01] Vergez C. and X. Rodet, « Trumpet and Trumpet Player: a highly nonlinear interaction studied in the framework of nonlinear dynamics », International Journal of Bifurcation and Chaos, July 2001.

[Rioux01] Rioux, V. & Västfjäll, D. (2001) « Analyses of Verbal Descriptions of the Sound Quality of a Flue Organ Pipe », in Musicae Scientae, Spring 2001, vol. V, Number 1, p 55-79.

Actes de congrès avec comité de lecture

[Orio01] Orio N., N. Schnell & M. Wanderley, « Input Devices for Musical Expression: Borrowing Tools from HCI », Proceedings of the
New Interfaces for Musical Expression Workshop (NIME) during ACM CHI 2001 - Seattle, USA - April 2001.

[Wanderley01] Wanderley M., « Quantitative Analysis of Performer Non-Obvious Gestures », Proceedings of the IV Gesture
Workshop - London, UK - April 2001.

[Schwarz01a] Orio N. and D. Schwarz, « Alignment of Monophonic and Polyphonic Music to a Score », Proceedings of the
International Computer Music Conference (ICMC 2001), September 2001, Havana, Cuba.

[Rodet01] Rodet X. and F. Jaillet, « Detection and modeling of fast attack transients », Proceedings of the International Computer
Music Conference (ICMC 2001), September 2001, Havana, Cuba.

[Hélie01a] Hélie T., C. Vergez et X. Rodet, conférence plénière invitée « Virtual Musical Instruments : Contribution to physical modeling and control of
self-sustained instruments », in Proceedings of the 5th World Multi-Conference on Systemics, Cybernetics and Informatics,
Orlando, International Institute of Informatics and Systemics, 2001.

[Lemaitre01] Lemaitre01 G., C. Vergez, X. Rodet and R. Caussé, « Physical modeling of oboe-like instruments: influence of the bore
conicity and of the pipe neck after the double reed», in Proceedings of the 5th World Multi-Conference on Systemics, Cybernetics
and Informatics, Orlando, International Institute of Informatics and Systemics, 2001.

[Roebel01b] Röbel A., « Adaptive additive synthesis using spline based parameter trajectory models », In Proc. of the International
Computer Music Conference (ICMC'01), Havanna, Cuba, Septembre 2001.

[Vergez01a] Vergez C. and X. Rodet, « Trumpet and trumpet player: modelisation and simulation in a musical context », Proc. of the
International Computer Music Conference (ICMC'01), Havanna, Cuba, Septembre 2001.

[Vergez01b] Vergez C. and X.Rodet. « Trumpet and trumpet player: physical modeling in a musical context. » (invited paper) ICA'2001, Rome, Italy, September 2001.

[D'haes01] D'haes W. et X. Rodet X, «Automatic Estimation of Control Parameters: An Instance-Based Learning Approach», Proc. of
the International Computer Music Conference (ICMC'01), Havanna, Cuba, Septembre 2001.

[Hélie01b] Hélie T., D. Matignon, « Damping models for the sound synthesis of bar-like instruments », in Proceedings of the 5th
World Multi-Conference on Systemics, Cybernetics and Informatics,
Orlando, International Institute of Informatics and Systemics, 2001.

[Susini01] Susini P., I. Perry, S. Vieillard, S. Winsberg, S. McAdams, X. Rodet, « Sensory evaluation of air-conditioning noise:
Sound design and psychoacoutic evaluation », ICA 2001, Rome, Sept. 2001

[Wanderley01a] Wanderley M. and P. Depalle, « Gesturally Controled Digital Audio Effects », in Proceedings of the COST-6
Conference on Digital Audio Effects (DAFx-01) - Limerick, Ireland - December 2001.

[Wanderley01b] Wanderley M., « Gestural Control of Music », International Workshop Human Supervision and Control in
Engineering and Music - Kassel, Germany - September 2001.

[Wanderley01c] Wanderley M., M.H. Serra, M. Battier and X. Rodet, « Gestural Control at IRCAM », Proc. International Computer
Music Conference, ICMC2001 - Havana, Cuba - September 2001.

[Peeters01a] Peeters G., « Musical Timbre Similarity », AES 110th Convention Amsterdam (Holland), May 2001.

[Wanderley01e] Wanderley M., and T. Hélie, « Detailed Study on the Expressive Movements of Acoustic Instrument Performers with
Applications to Human-Computer Interaction in Complex Multiparametric Contexts », 3rd Conference on Sensorimotor Controls in
Men and Machines - Marseille, France - October 2001.

Congrès de normalisation, congrès sans comité de lecture, et rapports

[Tisserand01a] Tisserand P., « Result of CE on Timbre Similarity », ISO/IEC JTC 1/SC 29/WG 11, Pisa meeting, m6805, MPEG-7.

[Tisserand01b] Tisserand P., and, X. Rodet, « Calcul des descripteurs bas niveaux », Rapport intermédiaire du Projet PRIAMM
ECRINS, Ircam, Paris, Juin 2000.

[Tisserand01c] Tisserand P., and, X. Rodet, « Rapport d'avancement sur le travail sur les descripteurs », Rapport intermédiaire du
Projet PRIAMM ECRINS, Ircam, Paris, Octobre 2000.

[Peeters01C] Peeters G., « MPEG-7 Multimedia Content Description Interface », Part 4: Audio (4.3.15-4.3.22, 5.3) ISO/IEC FCD
15938-4, Ircam, 2001.

Travaux universitaires, mémoires, thèses, habilitations

[Wanderley 01d] Wanderley M., « Performer-Instrument Interaction: Application to Gestural Control of Sound Synthesis », PhD Thesis, Unoversité Paris-6, Juin 2001

[Peeters01B] Peeters G., « Modèles et modélisation du signal sonore adptés aux caractéristiques locales », Thèse ATIAM, Ircam,
July 2001.

[Vincent01] Vincent E., « Séparation de signaux audio: principes statistiques de l'analyse en composantes
indépendantes et applications au signal monophonique », Rapport de stage de DEA ATIAM, IRCAM, Juin 2001.

[Delezoide01] Delezoide B., « Analyse en sous espace indépendants pour la séparation de signaux audio », Rapport de stage de
DEA ATIAM, IRCAM, Juin 2001.

[Bailleul01] Bailleul S., « Modélisation physique de guides d'ondes à symétrie de révolution », rapport de stage de maîtrise de
mathématiques appliquées, université d'Orléans, août 2001.

[Noel01] Noel S., « Mise en oeuvre d'une base de données de sons », rapport de stage de l'Ecole Nationale Supérieure
d'Electrotechnique, d'Electronique, d'Informatique, d'Hydraulique de Toulouse, Ircam, August 9, 2001.

Article invité dans une revue

[Vergez01c] Vergez C. et X. Rodet, « Etude d'un système non linéaire musical », SCIENCES, Avril 2001.

Review d'articles et propositions

Review en tant qu'expert pour the Information Society Future and Emerging Technologies unit de la Commission Européenne de Bruxelles (X. Rodet)

Review pour SIGGRAPH 2001 (X. Rodet)

Review d'un article pour le journal IEEE transactions on Signal Processing (X. Rodet)

Review d'un article pour le journal OrganisedSound (X. Rodet)

Review d'une Research Proposal pour ISF, Israel (X. Rodet)

Review d'une proposition en tant qu'expert pour RIAM (X. Rodet)

Review de propositions pour la conférence ICMC (X. Rodet, G. Peeters)

Diffusion de connaissances

Organisation de la session Physical Modeling à la 5th World Multi-Conference on Systemics, Cybernetics and Informatics, Orlando, International Institute of Informatics and Systemics, 2001 (T. Hélie et C. Vergez).

Conférence de X. Rodet, « Outils de description de phénomènes sonores » au
Collège Iconique de l'INA, juin 2000, publié dans
Les cahiers du collège Iconique, INA, 2001, pp 93-123.

Mission invitée de X. Rodet à l'Université de Santa Cruz, Californie, Octobre 2001. Conférence au Digital Arts/New Media Focussed Research Activity group.

Mission de X. Rodet à l'Université de Berkeley, Californie, Octobre 2001. Conférence « Détection de Transitoirs et Diphone Studio », au CNMAT.

Cours de X. Rodet au DEA ATIAM, « Modèles physiques et modèles de signaux ».

Conférence de T. Hélie au Séminaires interne de recherche et création « Inversion d'un modèle de lèvres dans les cuivres; Modélisation de la propagation des ondes dans les cuivres et rayonnement », Mars 2001.

Conférence de G. Peeters au Séminaires interne de recherche et création « Modèles et modification du signal sonore adaptés à ses caractéristiques locales », Octobre 2001.

Conférence de A. Roebel au Séminaires interne de recherche et création « Additive analysis/synthesis using adaptive and reassignment techniques », Octobre 2001.

Conférence de B. Delezoide et E. Vincent au Séminaires interne de recherche et création « Séparation de signaux audio monocapteur par analyse en sous-espaces indépendants », Novembre 2001.

Conférence de J.P. Lambert au Séminaires interne de recherche et création « Descripteurs des sons pour la synthèse », Novembre 2001.

Jurys de thèse et d'habilitation à diriger des recherches

X. Rodet président du jury de thèse de M. Wanderley, Université Paris-6.
X. Rodet membre du jury de thèse de M. Wanderley, Université Paris-6.
X. Rodet membre du jury de thèse de G. Peeters, Université Paris-6.

Travaux avec des compositeurs

Opéra "K" de P. Manoury (travaux de G. Peeters et X.Rodet)

Contrats

Contrat de recherche avec France-Télécom R&D sur les "Descripteurs pour la synthèse".
Contrat Européen IST CUIDAO
Contrat Ministériel ECRINS