« Home « Kết quả tìm kiếm

Localisation du locuteur dans une séquence audiovisuelle


Tóm tắt Xem thử

- Institut de la Francophonie pour l'Informatique.
- Mes plus sincères remerciements vont également à tous les professeurs et les personnels de l'Institut de la Francophonie pour l'Informatique (IFI) pour m'avoir donné des cours de très bonne qualité et pour leur soutien au long de mes études à l'IFI..
- Je remercie chaleureusement mes camarades de la promotion XI pour leur amitié sans faille et je leur souhaite bonne chance pour la soutenance..
- Le mouvement de la bouche d'un locuteur est fortement corrélé avec les données audio que celle-ci produit.
- 2 Etat de l'art 11 2.1 Etat de l'art de la localisation du locuteur.
- 2.2 Etat de l'art de la détection et du suivi de visages.
- 2.2.1 Etat de l'art de la détection de visages.
- 3.1.2 L'énergie visuelle.
- 3.2.3 Synchronisation l'énergie sonore et l'énergie visuelle.
- 4 Localisation du locuteur au niveau global 22 4.1 Extraction de l'énergie visuelle d'une région.
- 4.1.1 Couleur de la peau humaine.
- 5 Modèle proposé : la localisation du locuteur avec l'aide de la détection et du suivi de visage 31 5.1 Image de corrélation.
- 5.2 Critères de choix de la région la plus corrélée avec la bande audio.
- 23 4.2 Calcul de la somme de pixels dans un rectangle par l'image.
- 5.8 Un exemple de changement de la taille des zones de visages du suivi au cours du temps.
- 38 5.9 La taille de la fenêtre temporelle utilisée pour estimer la corré-.
- lation dépend de celle de la séquence de suivi de visage considéré 39 5.10 Images de corrélation en foncition des diérentes énergies vi-.
- gions de la bouche.
- nus en fonction de la méthode choisie pour xer la taille du visage.
- tion de la taille de la fenêtre temporelle.
- 40 5.6 Performances du système en fonction de l'énergie visuelle ba-.
- 40 5.7 Performances du système en fonction de l'énergie visuelle ba-.
- Le mouvement visuel de la bouche d'un locuteur est ainsi fortement corrélé avec les données audio produites de sa bouche..
- Dans les systèmes de sécurité, l'analyse de la synchronie audiovisuelle peut être utilisée pour détecter des impostures..
- 2.1 Etat de l'art de la localisation du locuteur.
- Un lissage temporel Gaussien est aussi utilisé pour réduire les erreurs de la localisation..
- Il y a d'autres dénitions de la synchronie basée sur la mesure de la correspondance entre les mouvements des visages et la parole.
- Mais les performances de FaceSync dépendent de la base d'apprentissage, elle est constituée de toutes les vidéos dont ils disposaient.
- Malheureusement lors de mauvais résultats, on ne peut pas connaître quelle est la partie de la base d'apprentissage qui pose problème..
- Kazumasa Murai et Satoshi Nakamura [7] s'intéressent seulement à la région de la bouche.
- A partir de la détection des yeux et des lèvres, ils calculent l'énergie visuelle en utilisant l'intersection de bissectrice de deux yeux et la région de la bouche.
- 2.2 Etat de l'art de la détection et du suivi de vi- sages.
- En utilisant les frontières de cette région comme valeurs de seuillage sur une image, il est alors possible d'extraire les pixels dont la couleur peut s'apparenter à celle de la peau.
- Plusieurs auteurs ont développé des algorithmes basés sur la segmentation de la peau [14][15]..
- L'objectif ici est de discriminer deux distributions : celle de la classe visage et celle de la classe non-visage grâce à un algorithme d'apprentissage statistique.
- Lors de la phase d'apprentissage, des images labelisées comme appartenant à l'une ou l'autre de ces deux classes sont considérées.
- Le principe des HMMs, lors de la localisation du visage, est de toujours extraire les mêmes régions de l'image d'entrée et de vérier si les caracté- ristiques apparaissent dans le même ordre que celui déni dans le modèle HMM..
- L'objectif de la phase de suivi est de permettre l'association des dié- rentes instances d'un même visage au cours du temps.
- Dans le contexte de la segmentation, la phase de suivi s'avère donc primordiale..
- Dans les systèmes de la localisation du locuteur que nous venons de discuter, les liens entre la vidéo et l'audio sont déduits par apprentissage de séquences audio-visuelles.
- l'énergie visuelle du pixel (i, j) de la trame t..
- l'énergie visuelle de la région d'intérêt de la trame t..
- S : la surface de la région d'intérêt..
- La première est la diérence d'intensité de la luminance du pixel dans deux trames successives.
- A partir de la séquence des images −−→.
- La gure 3.2 nous montre le résultat de la détection de mouvement à niveau de base.
- L'énergie visuelle de la région d'intérêt E V (ROI, t) est la moyenne de celle de tous les pixels dans la région.
- Les vidéos de la base de données sont échantillonnées à 25 trames/s..
- An de détecter le locuteur actif à l'instant courant, il faut s'intéresser à la synchronie entre la voix et le mouvement de la bouche.
- La taille de la fenêtre temporelle k sera donc un paramètre très important, surtout quand le locuteur change..
- une première base est construite à partir de la base BANCA : 4 vidéo sont utilisées pour former une unique vidéo (la gure 3.4).
- Pour ce faire, nous divisons l'image de la vidéo en régions..
- 4.1 Extraction de l'énergie visuelle d'une région.
- C'est la caractéristique de la couleur de la peau humaine..
- Plusieurs espaces de couleur sont utilisés pour détecter les pixels dans l'image qui ont la couleur de la peau humaine.
- L'ecacité de détection des pixels dont la couleur est celle de la peau humaine dépend du choix de l'espace de couleur.
- Dans cette version, nous calculons l'énergie visuelle d'une région en uti- lisant l'information colorimétrique de la peau humaine (cf la formule 4.4)..
- De la même façon que l'on calcule les énergies visuelles sans l'information colorimétrique, nous aurons ainsi trois types de celles qui sont basées sur l'information colorimétrique..
- De la même façon, la valeur à la position 2 est A+B, à la position 3 : A+C, à la position 4 : A+B+C+D.
- 4.2 Calcul de la somme de pixels dans un rectangle par l'image inté- grale.
- Ce paragraphe parle de la mesure de corrélation en traitant ensemble ou séparément ces composantes..
- après le calcul de la corrélation (on discutera après).
- Remarque : les énergies visuelles basées sur l'information colorimétrique de la peau humaine nous donnent le résultat meilleur..
- Expérimentation 2 - Les vidéos de quatre personnes actives De la même façon que la dernière expérimentation, nous avons testé sur les vidéos dans la base BANCA avec quatre personnes actives..
- Modèle proposé : la localisation du locuteur avec l'aide de la.
- En remarquant que le résultat de la localisation du locuteur au niveau global sur toute l'image n'est pas très bon, nous proposons dans la suite un système d'estimation locale de la corrélation entre le signal visuel et le signal audio en nous basant sur des résultats de détection de visages..
- En utilisant les résultats de la détection de visages, nous réduisons l'espace de recherche..
- et calculons ainsi la corrélation de tous les pixels d'une zone de visage avec le son pour choisir la mesure de corrélation de la région..
- Le calcul de la corrélation entre l'énergie sonore et l'énergie visuelle pour chaque pixel dans les régions de visage détectées nous permet d'obtenir le résultat de la gure 5.1 : l'intensité de chaque pixel est proportionnelle à sa valeur de corrélation.
- On voit alors dans cette image que les régions les plus corrélés (les plus claires) sont situées à proximité de la bouche..
- La corrélation d'une région correspond à la suite corrélation maximale mesuré parmi l'ensemble des pixels de la région.
- Le choix de la région la plus corrélées repose alors sur ce nombre nb i : c'est la région pour laquelle nb i est maximal..
- n est dépendant de la taille de la zone de visage..
- Remarque concernant la mesure de précision Certaines trames contiennent un seul visage et le résultat de la localisation correspond alors bien entendu à ce visage.
- On calcule alors les diérentes énergies E S et E V (pour chaque région) de la façon suivante.
- Dans le tableau 5.1, k est la taille de la fenêtre temporelle..
- Expérimentation 2 - Critères de choix de la région la plus corrélée avec la bande audio.
- La gure 5.4 montre un exemple d'erreur obtenue en utilisant le critère maximun : le pixel de la corrélation maximale de la dame est à ses lèvres, du monsieur au milieu est à son front, du monsieur à droite est à ses yeux..
- Dans la gure 5.5, la bouche de la dame à gauche est très bien corrélée avec le signal audio et elle parle.
- Mais d'autres pixels de son visage sont moins corrélés que les pixels dans le visage de la personne au milieu.
- 5.7 Localisation du locuteur avec suivi de visage - les avantages Dans la gure 5.7, nous espérons que nous connaissons exactement la trace de la position d'une personne pendant une durée lorsqu'il y a le chan- gement de nombre des locuteurs et le locuteur bouge..
- La gure 5.8 montre un exemple de changement de la taille des zones de visage du suivi au cours du temps..
- 5.3 Localisation du locuteur avec suivi de visage - résultats obtenus en fonction de la méthode choisie pour xer la taille du visage.
- Les expérimentations ont montré que la meilleure solution consistait à utiliser la taille maximale de l'ensemble des rectangles de la séquence de visages..
- 5.9 La taille de la fenêtre temporelle utilisée pour estimer la corrélation dépend de celle de la séquence de suivi de visage considéré.
- Par conséquent, il n'y a pas de la corres- pondance exacte entre des pixels associés..
- La taille de la fenêtre temporelle.
- La taille de la fenêtre temporelle k est un paramètre très important..
- 5.5 Localisation du locuteur avec la détection de visage en fonction de la taille de la fenêtre temporelle.
- La taille de la fenêtre temporelle la meilleure dans ce cas est 15 trames.
- L'énergie visuelle.
- 5.7 Performances du système en fonction de l'énergie visuelle basée sur le changement d'intensité.
- Ces images montrent que l'intensité (a) peut amener à confondre la région qui produit le son (la bouche + le menton) avec d'autres régions alors que le changement d'intensité distingue bien la région de la bouche et du menton avec les autres régions..
- Au niveau local, nous avons réduit les régions de recherche en utilisant les résultats de la détection et du suivi de visages.
- Après le calcul la corrélation de l'énergie sonore avec l'énergie visuelle de tous les pixels dans une région, on applique des critères pour choisir la mesure de la corrélation de cette région : le maximum, la moyenne, le nombre de valeurs supérieures à un seuil et la moyenne des n valeurs les plus grandes.
- Les performances du système sont dépendantes du type de l'énergie visuelle, du critère de choix la corrélation de région, de la taille de fenêtre temporelle.
- 6.2 Traitement de bruit en focalisant plus précisément sur les régions de la bouche.
- Nous pouvons aussi focaliser plus précisément sur les régions de la bouche.
- Pour préciser la région de la bouche, il y a des dicultés dans le cas où les locuteurs sont de prol.
- Il faut s'intéresser plus à la taille de la fenêtre temporelle