« Home « Kết quả tìm kiếm

ANALYSE ACOUSTIQUE DE SONS BIEN IDENTIFIÉS PAR UN SYSTEME DE RECONNAISSANCE AUTOMATIQUE DE LA PAROLE


Tóm tắt Xem thử

- Institut de la Francophonie pour l’Informatique INRIA de Lorrain - LORIA.
- LA PAROLE.
- Ce sujet procède de la motivation de rechercher des sons qui sont bien réalisés acoustiquement, afin de les renforcer et d’améliorer l’intelligibilité de la parole.
- Il concerne plus particulièrement l’analyse acoustique des sons reconnus par un système de reconnaissance automatique de la parole (RAP) destiné à rechercher des sons bien prononcés..
- Présentation de l’environnement de travail.
- Production de la parole.
- Introduction de l’indice acoustique.
- Modèle mécanique de production de la parole.
- Spectre de ‘my speech.
- Un exemple de la lecture du spectrogramme [12.
- Analyse du burst de la syllabe /ko.
- Présentation de l’interface de Snorri.
- Les étapes de l’apprentissage « Élitiste.
- Distribution des sons selon la fréquence du burst (contexte antérieur.
- Distribution des sons selon la fréquence et l’émergence (contexte antérieur.
- Distribution des sons selon la fréquence et la durée (contexte antérieur.
- Distribution des sons selon la fréquence et la qualité (contexte antérieur.
- Distribution des sons selon la fréquence et l’émergence adaptée aux vélaires et aux dentales (contexte antérieur.
- Distribution des sons selon la fréquence du burst (contexte central.
- Distribution des sons selon la fréquence et l’émergence (contexte central.
- La signature, le 19 décembre 1997, du contrat quadriennal avec le Ministère de l’Education Nationale, de la Recherche et de la Technologie et par une convention entre les cinq partenaires a officialisé la création de cette unité de recherche.
- Le LORIA est situé sur le campus de la faculté des sciences de Nancy..
- • Recherche fondamentale et appliquée au niveau international dans le domaine des Sciences et Technologies de l'Information et de la Communication.
- L’équipe a pour thème de recherche « Analyse, Perception et Reconnaissance automatique de la parole » (Projet INRIA-LORIA)..
- Le thème de recherche de l’équipe Parole est l’étude de la communication parlée et recouvre un vaste spectre d’activités qui comprend l’étude de la perception humaine des indices acoustiques, l’analyse de la parole et la reconnaissance automatique.
- • Analyse de la parole.
- Ce thème concerne l’analyse et la perception du signal acoustique, l’étude de l’inversion acoustico-articulatoire et l’analyse de la parole..
- Ce thème permet le développement de nombreuses applications dans les domaines de la thérapie de réhabilitation vocale, dans l’amélioration des aides auditives et dans l’apprentissage des langues..
- • Modélisation de la parole pour la reconnaissance automatique.
- Ce thème permet le développement de nombreuses applications dans les domaines de la reconnaissance automatique de la parole, dans la dictée automatique, dans l’alignement texte-parole et dans la classification des divers signaux de la parole..
- Nous avons utilisé des outils et l’environnement commun de l’équipe..
- Les logiciels de traitement de la parole utilisés dans ce travail sont Snorri (un logiciel fonctionnant sous Linux) et Winsnoori (la version Windows de Snorri).
- Notre sujet procède de la motivation de rechercher des sons qui sont bien réalisés acoustiquement, dans le but d’améliorer l’intelligibilité de la parole.
- Il concerne plus particulièrement l’analyse acoustique des sons de la sortie d’un système de reconnaissance automatiquement de la parole destiné à rechercher des sons bien prononcés.
- En ce qui concerne la partie théorique, nous avons étudié les théories nécessaires concernant notre travail : la parole et la production de la parole, le traitement de la parole, la reconnaissance de la parole, les caractéristiques et les indices acoustiques de sons de la parole..
- En ce qui concerne la partie pratique, nous avons débuté par l’étude des sons qui sont reconnus par un système de reconnaissance automatique de la parole.
- Ensuite, basé sur un système de codage et de traitement de la parole, nous avons modifié et ajouté des fonctions qui permettent d’extraire des indices acoustiques d’un son.
- Ce rapport introduit les connaissances acquises sur l’étude de la parole que nous avons réalisé au LORIA dans le cadre de ce stage.
- Le contenu principal du rapport concerne les théories de traitement de la parole, les caractéristiques phonétiques, les indices acoustiques des voyelles et des consonnes, et l’analyse acoustique des consonnes qui sont bien identifiés et mal identifiés par un système de RAP..
- Chapitre 2 : ce chapitre donne les théories de base qui concerne le travail : la parole et sa production, les caractéristiques phonétiques des sons de la parole.
- Avant de présenter les contenus principaux, nous présenterons un peu la théorie de la parole qui intéresse notre travail.
- C’est une petite introduction de la parole et sa production et des caractéristiques principales de sons de la parole..
- La parole apparaît physiquement comme une variation de la pression de l'air causée et émise par le système articulatoire.
- Par contre les sons non voisés ne présentent pas de structure périodique, ils sont considérés comme des bruits blancs filtrés par la transmittance de la partie du conduit vocal située entre la constriction et les lèvres..
- On distingue ainsi les voyelles antérieures, moyennes et postérieures, selon la position de la langue, et les voyelles ouvertes et fermées, selon le degré d’ouverture du conduit vocal..
- qui sont émises sans intervention de la cavité nasale et les voyelles nasales (ã, ε.
- Chaque voyelle se caractérise par les résonances du conduit vocal qu’on appelle “les formants”.
- Il est commode de représenter une voyelle sur un plan F1, F2 pour voir le “triangle articulatoire ” ou “triangle vocalique ” de la phonétique.
- Ce triangle représente la position de la langue dans la cavité buccale selon les 2 axes F1 “antérieur-postérieur ” et F2 “ouvert-fermé.
- F1 représente la position de la langue.
- F2 dépend de l'ouverture de la cavité buccale.
- Un spectrogramme est une représentation visuelle de la parole.
- Spectre de ‘my speech’.
- Voici un exemple de la lecture du spectrogramme.
- Un exemple de la lecture du spectrogramme [12].
- A l’aide du bas de F3 et de la proximité de F2 et de F3, on peut expliquer la forme de /tr/.
- Donc c’est la transition de /w/ à la voyelle suivante..
- Ceci ne semble pas une nasale en raison de la continuité en tout point.
- Notre travail consiste à faire un analyse acoustique sur les consonnes occlusives reconnues par un système de reconnaissance automatique de la parole.
- Un des buts de l’équipe Parole dans le thème d’analyse de la parole est d’étudier des caractéristiques acoustiques des sons de la parole (formant, fréquence fondamentale, caractéristiques spectrales des bruits d’explosion ou de friction.
- La détection très fiable de sons bien réalisés peut avoir deux types d’applications : fournir des informations très fiables au système de reconnaissance automatique et élaguer la recherche lexicale d’une part, et améliorer l’intelligibilité de la parole par le renforcement des sons qui ont été bien réalisés d’autre part..
- Voici un exemple de l’analyse de la transition du burst de la syllabe /ko/.
- Analyse du burst de la syllabe /ko/.
- Comme ce critère prenait parfois des valeurs élevées pour des spectres non compacts, ne contenant qu’un seul pic peu proéminent, nous l’avons remplacé par une évaluation de la proéminence du pic principal.
- Le deuxième critère rendant compte de la compacité est l’allure générale du spectre..
- La durée du bruit (calculée du début de l’attaque jusqu’à la première période de la voyelle subséquente) est un indice discriminant pour le lieu d’articulation des occlusives.
- En effet, si le bruit est très bref, le spectre représentant l'attaque de la consonne se rapproche de celui de la voyelle subséquente, ce qui peut entraîner un mauvais déclenchement de l’indice palato-vélaire (dans le cas, par exemple, d’une forte proéminence du pic correspondant au F2).
- L’évaluation des fréquences est réalisée des deux côtés de la consonne: les onsets des transitions de F2 et F3 dans la séquence CV et les offset des transitions de F2 et F3 dans la séquence VC..
- Nous avons choisi d'évaluer la pente à la frontière plutôt qu'à une période fixe ou une partie fixe de la voyelle, pour au moins deux raisons.
- Elles descendent de la consonne à la voyelle suivante et forment avec la transition montante de F3 ce qu’il est convenu d’appeler la « pince vélaire »..
- En contexte VCV néanmoins, Öhman a montré que la pente de la transition de F2 est susceptible de changer de direction quand la voyelle précédant la consonne est une voyelle d’arrière.
- Snorri est un logiciel d’étude de la parole qui est développé en langage C et sous l’environnement de Unix et Motif.
- Ce logiciel est destiné à faciliter le travail du chercheur en reconnaissance de la parole, en phonétique, en perception ou encore en traitement du signal (suivi de formant, identification des occlusives.
- À cela s'ajoute un grand nombre de fonctions destinées à étiqueter phonétiquement ou orthographiquement des signaux de parole, des fonctions destinées à extraire la fréquence fondamentale de la parole, des fonctions destinées à piloter le synthétiseur de Klatt et d'autres à utiliser la synthèse PSOLA.
- Winsnoori est à la fois un outil de recherche pour les chercheurs en traitement de la parole et un outil pédagogique (surtout d’illustration) pour les enseignants de phonétique.
- En outre, il contient des fonctions de modification du signal fondées sur une version améliorée développée au sein de l’équipe de la technique TD-PSOLA (cela implique la modification de la durée de segments et/ou la modification de la fréquence fondamentale) qui.
- vont être d’une aide précieuse dans le domaine de l’apprentissage de la prosodie anglaise par des locuteurs français..
- Étape 1 : On effectue un premier apprentissage classique à partir des signaux acoustiques et de la transcription phonétique disponible afin de conduire aux modèles acoustiques traditionnels (les modèles de Markov cachés)..
- Étape 3 : On détermine par alignement forcé avec la transcription phonétique de la phrase les sons bien reconnus.
- On peut voir que, à chaque itération de la boucle, les sons qui ont été bien identifiés à l’étape précédente (tous les sons à la première étape) et qui sont correctement identifiés lors de l’itération en cours sont placés dans la classe des « bons exemples » du son qu’ils représentent..
- L’objectif du stage est de faire l’analyse des sons (les sons bien identifiés et les sons mal identifiés) qui sont reconnus par un système de reconnaissance de la parole destiné à détecter les belles réalisations acoustiques d’un son.
- Afin d’analyser les sons reconnus par un système de reconnaissance automatique de la parole (RAP), les corpus utilisés dans ce travail sont des sorties d’un système de RAP destiné à détecter les belles réalisations acoustiques.
- Limite inférieure de bruit (pour les fricatives), Points d'échange des cavités formantiques, Profil de la micromélodie..
- A partir de la solution, nous avons utilisé trois critères pour calculer l’émergence.
- Fréquence et émergence Max Haut : si le max spectral est situé en haut fréquence (au-delà de 3000 Hz) on calcule son émergence par rapport au max spectral de la zone de fréquence 0-3000 Hz, appelée EmerHF-BF.
- On va essayer de la chercher en utilisant.
- Calcul de la confusion entre les classes de sons.
- Compter le nombre d’échantillons de la classe dans cette zone: Nbr_sons..
- En fait, le choix du nombre de zone dépend bien de la distribution de données et le nombre de dimensions (c’est aussi le nombre d’indices).
- La deuxième colonne contient les nombres des zones dans l’espace de BI dans lesquelles leurs contenus correspondent au contenu de la première colonne.
- La troisième colonne contient les nombres des zones dans l’espace de MI dans lesquelles leurs contenus correspondent au contenu de la première colonne.
- Analyse de la distribution des sons.
- Distribution des sons selon la fréquence et l’émergence adaptée aux vélaires et aux dentales (contexte antérieur).
- repartition des sons selon frequence.
- Dans cette étude, les indices sont calculés à partir des données de la parole et de l’étiquetage de données, et cet étiquetage a été réalisé par une segmentation automatique de la parole.
- Yves Laprie, “Analyse spectrale de la parole’.
- “Introduction au Traitement Automatique de la Parole”.
- Le site web de la Parole : http://parole.loria.fr.
- diffusion calculee a partir de la compacite.
- verification du decoupage de la boite consideree