![]() |
SCEE : Signal, Communication et Electronique Embarquée SUPELEC, Campus de Rennes Responsable : PALICOT Jacques (Prenom.Nom at supelec.fr)
|
Hétéro-association de signaux Audio-Vidéo par réseaux de neurones
David Mercier
Thèse soutenue le 24 janvier 2003
Résumé :
Depuis quelques années, les applications nécessitant des traitements spatio-temporels sont de plus en plus étudiées, ce qui a conduit à la création de plusieurs outils adaptés à ces traitements. Parmi eux, les STANN (Spatio-Temporal Artificial Neural Networks) constituent une famille de réseaux de neurones à impulsions. Basés sur des modèles de réseaux de neurones artificiels connus, ils correspondent à l'élargissement de ces modèles au traitement des formes spatio-temporelles composées de signaux impulsionnels. Ceci a été rendu possible grâce à un codage dans le corps des complexes des caractéristiques spatiales et temporelles des données. Ces modèles ont été validés par des applications en interface humain-machine (écriture manuscrite, lecture labiale) et une méthodologie d'utilisation a été proposée.
Ce travail de thèse poursuit la définition de cette méthodologie d'utilisation en abordant deux problématiques importantes la génération de signaux impulsionnels et l'utilisation de plusieurs modalités. Dans un premier temps, nous proposons une méthode de conversion automatique des informations continues en impulsions. Elle permet d'utiliser ces réseaux de neurones avec les mêmes prétraitements classiques que ceux utilisés avec d'autres outils comme les HMM, limitant ainsi les difficultés d'élaboration du prétraitement. Puis nous effectuons une étude sur la fusion des modalités (i.e. des sources) avec ce modèle spatio-temporel. En particulier, nous proposons de légères modifications des architectures qui permettent alors d'exploiter très simplement et sans calculs supplémentaires de synchronisation et de rééchantillonnage, des modalités disponibles à des cadences différentes.
Ces propositions ont été validées par l'implémentation de systèmes de lecture labiale, de reconnaissance vocale et de reconnaissance bimodale de la parole (audio et vidéo). Les résultats sont principalement présentés dans le cadre monolocuteur avec un apprentissage direct en un seul coup.
Mots clés : codage spatio-temporel, corps des complexes, séquences d'impulsions, reconnaissance de la parole, multimodalité.