Conseil scientifique - Analyse/Synthèse  -  janvier 2000   


Segmentation et étiquetage : présentation

-  Stéphane Rossignol -

La procédure de segmentation est hiérarchique. Trois niveaux de segmentation sont définis. Les informations obtenues à un certain niveau sont propagées vers les niveaux inférieurs pour améliorer leurs performances. Les segments trouvés sont de plus en plus petits et précisément étiquetés.


Segmentation en sources


Définition

Le but du premier niveau de segmentation est de classifier le son suivant sa nature. Les deux classes considérées sont la parole et la musique. Les sons utilisés sont par exemple des bandes son de film ou des enregistrements radiophoniques.

Procédure

L'analyse se décompose en deux étapes :

  • 1. Des fonctions d'observation sont extraites, qui essaient de mettre en évidence des propriétés différentes pour chaque classe. Les fonctions d'observation sont calculées à partir des fonctions de << base >> :
  • calculées sur des fenêtres temporelles de 30 ms. Et les fonctions d'observation sont : la moyenne et la variance des fonctions de << base >> calculées sur des segments d'une seconde.

  • 2. Nous classifions les échantillons des fonctions d'observation. Les méthodes de classification utilisées sont :
  • Exemple

  • Points clairs : musique
  • Points foncés : parole
  • Première fonction d'observation : moyenne du flux spectral (ordonnée)
  • Seconde fonction d'observation : variance du flux spectral (abscisse)
  • Résultats

    Le pourcentage d'erreur avec les six caractéristiques est :

    apprentissage test validation croisée
    Deux Gaussiennes 4,0 3,6 9,3
    7 plus proches voisins 1,3 1,5 5,9
    Réseaux de neurones 1,9 1,7 4,7


    Segmentation en caractéristiques


    Définition

    Lors du niveau de segmentation en caractéristiques, nous étiquetons des segments avec des caractéristiques du type : silence/son, voisé/non voisé, harmonique/inharmonique, présence de vibrato/absence de vibrato...

    Processus de segmentation

    Nous avons vu que le premier niveau de segmentation répondait à cette première question :

  • q1 le signal est de la Parole ou de la Musique ?
  • Si le signal est de la musique, le deuxième niveau de segmentation peut commencer. Une série de questions est posée. Nous donnons un exemple ci-dessous :


    Segmentation en zones stables


    Définition

    Il s'agit ici de poser des marques de segmentation sur un son, dans le but d'obtenir des segments de son étiquetés qui soient manipulables (recherche dans des bases de données), transformables...

    La définition de zone stable dépend du type de son considéré. Nous donnons deux exemples :

  • Exemple 1 : Pour les sons Harmoniques, Voisés, Monophoniques et Musicaux, la segmentation en zones stables correspond à la segmentation en notes .
  • Exemple 2 : Pour les sons Inharmoniques, Non voisés, Monophoniques et Musicaux (extrait de castagnettes par exemple), la segmentation en zones stables correspond à la détection des transitoires d'énergie.
  • Dans la suite, nous allons considérer que le son est Harmonique, Voisé et Monophonique. Le dernier niveau est la segmentation du signal en notes .

    Le son étudié ici en exemple

    Procédure

    Elle est composée de quatre étapes :

    Break

    Nous espérons d'une fonction d'observation qu'elle présente des pics aussi grands et fins que possible aux moments des transitions, et que sa moyenne et sa variance soient aussi petites que possible dans les zones stables.

    Trois types de fonctions d'observation sont utilisés pour mettre en évidence les transitions :

    Première étape : Extraction de fonctions d'observation

    Fonctions d'observation utilisées :

  • Dérivée de la fréquence fondamentale
  • Dérivée relative de la fréquence fondamentale
  • Dérivée de l'énergie
  • Dérivée relative de l'énergie
  • Dérivée du produit des inharmonicités des premiers partiels
  • Dérivée de la somme des inharmonicités des premiers partiels
  • Dérivée du coefficient de voisement
  • Flux spectral
  • Interface graphique. Visualisation des fonctions d'observation

    Break


    Deuxième étape : Prise de décision

    Seuillage

    Des méthodes de seuillage statistiques, venant notamment du traitement des images, sont utilisées.

    Par exemple, nous utilisons la méthode des 3 Break. Nous décidons que tous les pics supérieurs à 3 Break, où Break est l'écart-type du bruit (observé dans les zones stables), sont des pics ne correspondant pas à du bruit (correspondant donc à des transitions). Il y a une justification théorique à ce seuil, avec le seuil universel défini par Donoho. Ce seuil est égal à s = Break, où M est la taille du signal en nombre d'échantillons. Donoho prouve que quand M tend vers l'infini la probabilité qu'un échantillon de bruit dépasse s tend vers 0. Et pour M de l'ordre de 1000 s est très proche de 3 (3,72). Le problème est de parvenir à déterminer Break correctement : nous classons les échantillons en ordre croissant et nous calculons Break avec les n % plus petits (la méthode est relativement robuste à n : nous prenons n=90).

    Interface graphique. Visualisation des fonctions de décision

    Troisième étape : Prise de décision finale.

    Quelques éléments à propos de la fusion de données

    Supposons que nous ayons n fonctions de décision (c'est-à-dire n capteurs).

    Supposons que la probabilité de bonne détection pour chaque fonction de décision soit pbd = 0,8. Plusieurs cas sont considérés :

    Après la fusion, la probabilité de bonne détection est :

    Break

    Deux fonctions de décision sont égales quand les fonctions d'observation correspondantes sont très corrélées. Ainsi nous pouvons voir qu'il est très important d'utiliser des fonctions d'observation très décorrelées.

    Interface graphique. Visualisation de la décision finale

    La hauteur de chaque marque correpond à la confiance que nous lui accordons.



    Quatrième étape : transcription automatique

    Méthode

    Pour trouver la note jouée sur chaque segment, ces trois mesures sont utilisées :

    Pour l'extrait de flûte

    Break