Sujet de thèse

Contrôle d’Expressions d’Agents Intelligents pour les Interactions Homme-Agent et les Applications de Réalité Etendue

  • Type
    Doctorat

Description

L’un des principaux piliers de la révolution industrielle actuelle est la réalité étendue (eXtended Reality, XR). Ce sujet a suscité beaucoup d’intérêt tant dans le monde académique que dans l’industrie (Meta, Apple, Google, Nvidia, etc.), en raison de son impact socioculturel et économique potentiel.

 

Dans le contexte du projet collaboratif Wal4XR, qui rassemble 5 universités de Wallonie et de Bruxelles autour des XR, cette thèse de doctorat se concentrera sur l’exploration de systèmes capables de contrôler l’émotion/l’humeur exprimée par des agents virtuels dans une configuration interactive. L’objectif est de permettre à un agent d’interagir de manière autonome avec un utilisateur humain, et d’adapter son comportement de manière à correspondre à l’humeur/état affectif imposé par un autre moniteur humain.

 

Les agents virtuels interactifs sont des outils importants pour l’interaction homme-machine, en particulier dans les médias de réalité étendue, et ils font l’objet de recherches depuis plusieurs décennies. Lorsqu’il s’agit d’un agent interactif autonome, l’agent doit être capable de percevoir correctement les données de l’utilisateur et d’y répondre automatiquement de manière appropriée en fonction de l’objectif de l’agent. Le défi consiste à traiter non seulement les réponses verbales qui sont sémantiquement bien adaptées à l’entrée, mais aussi les réponses non verbales telles que le rire, le hochement de tête, etc. L’inclusion d’expressions non verbales dans une interaction homme-agent améliorera l’expérience de l’utilisateur [1]. Des travaux tels que [2,3] explorent des solutions initiales à des problèmes persistants tels que la contrôlabilité des expressions générées, la précision de la réponse fournie (dans différentes modalités) et la correspondance entre les expressions non verbales et le texte sémantique généré.

Concrètement, ce travail se concentrera sur les systèmes d’IA pour générer des expressions verbales et non verbales dans plusieurs modalités (audio, expressions faciales, gestes, etc.) de manière autonome dans un scénario d’interaction avec un utilisateur, en suivant des états affectifs prédéfinis. La solution développée sera testée dans un cas d’utilisation concret. Les contributions de cette thèse sont 1) l’utilisation conjointe d’expressions verbales et non-verbales comme moyen de communication d’un agent interactif autonome dans un scénario XR, 2) le contrôle de l’émotion ou de l’humeur exprimée par l’agent interactif autonome. En effet, bien que des travaux existent sur les agents réactifs, le contrôle des dimensions émotionnelles de l’agent interactif reste un défi.

 

[1] Deepali Aneja, Rens Hoegen, Daniel McDuff, and Mary Czerwinski. 2021. Understanding Conversational and Expressive Style in a Multimodal Embodied Conversational Agent. In Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems (CHI ’21). Association for Computing Machinery, New York, NY, USA, Article 102, 1–10. https://doi.org/10.1145/3411764.3445708
[2] Geng, Scott, Revant Teotia, Purva Tendulkar, Sachit Menon, and Carl Vondrick. “Affective Faces for Goal-Driven Dyadic Communication.” arXiv preprint arXiv:2301.10939 (2023).
[3] Wei Zhao, Peng Xiao, Rongju Zhang, Yijun Wang, and Jianxin Lin. 2022. Semantic-aware Responsive Listener Head Synthesis. In Proceedings of the 30th ACM International Conference on Multimedia (MM ’22). Association for Computing Machinery, New York, NY, USA, 7065–7069. https://doi.org/10.1145/3503161.3551580

À propos de ce sujet de thèse

Lié à
Service
Service Information, Signal et Intelligence artificielle
Promoteurs
Thierry Dutoit
Kevin El Haddad

Contactez-nous pour obtenir de plus amples informations