« Grounding and pragmatics for multimodal Human-Machine interaction » par Monsieur Jean-Benoît DELBROUCK

Quand ?
Le 08 juillet 2020 de 10:00 à 13:00
Où ?
Campus Plaine de Nimy - Centre Vésale - Aud. La Fontaine

Organisé par

Prof. Pierre Manneback
065/37.40.50.

Promoteur : Dr. Stéphane DUPONT

Résumé :

Le langage est fonde dans expérience. A` l’inverse des dictionnaires qui définissent les mots en termes d’autres mots, les humains comprennent les mots en fonction de leurs expériences sensorielles ou motrices. Les personnes doivent inter- agir physiquement dans le monde réel pour saisir l’essence des mots tels que ”rouge”, ”lourd” ou ”au-dessus”. Les mots abstraits ne sont acquis qu’en relation de termes ancres dans la réalité. Le ”problème du fondement des symboles” (ou Grounding Problem en anglais) est donc un aspect fondamental de la langue écrite ou parlée, qui permet aux humains d’utiliser des mots et des phrases dans un contexte bien particulier.

Dans le champ de l’apprentissage automatique, plusieurs tâches se situent a l’intersection du langage et de la perception, c’est le cas de la réponse aux questions visuelles (Visual Question Answering) ou de la traduction automatique multimodale (Multimodal Neural Machine Translation), qui incluent des instructions linguistiques supportées par un contexte visuel. Par exemple, dans le cadre du Visual Question Answering, on attend d’une machine entraîne les réponses correctes aux questions sur images telles que ”Quelle est la couleur du bus ?”, ”Ce panneau est-il `a l’envers ?” ou ”Combien de verres sont présents `a table ?”. Une augmentation de la complexité du langage montre, dans une certaine mesure, que les machines peinent `a cartographier les mots de la question avec leur représentation dans le monde physique (ici représente par une image): c’est le Grounding Problem.

Cette thèse a pour but d’aborder le Grounding Problem pour les tˆaches a l’intersection de la perception et du langage par la proposition de nouvelles architectures neuronales et multimodales. La validité d’une même architecture peut s’évaluer sur plusieurs tˆaches; dans cette thèse nous choisissons la traduction automatique multimodale, la réponse aux questions visuelles, la navigation virtuelle par instructions et la reconnaissance d’émotions et de sentiments. Nous reportons nos évaluations personnelles selon des métriques spécifiques a chaque champ de recherche, mais également dans le cadre de compétitions interuniversitaires organisées. Pour deux de ces compétitions, nos modèles ont remporte iere place selon un jugement automatique ou humain.

Adresse
Avenue du Champ de Mars, 22
7000 Mons, Belgique