Sujet de thèse

Interaction avec des agents virtuels intelligents

  • Type
    Doctorat

Description

Le travail portera sur les systèmes capables de contrôler l’émotion/l’humeur générée par l’agent virtuel et perçue par l’utilisateur. Pour cela, elle explorera des méthodes pour des systèmes end-to-end pour des agents réactifs utilisant des données multimodales ainsi que des expressions verbales et non verbales en parallèle. Les contributions de cette thèse sont 1) l’utilisation conjointe d’expressions verbales et non verbales dans un scénario XR, 2) le contrôle de l’émotion ou de l’humeur générée. En effet, bien qu’il existe des travaux sur les agents réactifs, le contrôle sur les dimensions émotionnelles de l’agent interactif reste un défi.

Les humains virtuels sont un outil important pour l’interaction homme-machine dans les médias de réalité étendue et font l’objet de recherches depuis plusieurs décennies. Lorsqu’il s’agit d’un agent autonome censé accomplir une tâche pour laquelle il a été conçu, l’agent doit être capable de percevoir correctement les entrées de l’utilisateur et d’y réagir automatiquement d’une manière appropriée qui dépend, bien sûr, de la situation et de l’application. Le défi ici est de traiter les réponses verbales qui sont sémantiquement bien adaptées à l’entrée, comme les LLM tels que Chatgpt (avec du texte uniquement), parallèlement aux réponses non verbales (rires, hochements de tête, etc.) qui améliorent la perception des interactions et les rendent plus réalistes pour l’utilisateur [1]. Des travaux tels que [2,3] explorent des premières solutions à des problèmes persistants tels que la contrôlabilité des expressions générées, la précision de la réponse fournie (dans différentes modalités) et l’adéquation entre les expressions non verbales et le texte sémantique généré.

[1] Deepali Aneja, Rens Hoegen, Daniel McDuff, and Mary Czerwinski. 2021. Understanding Conversational and Expressive Style in a Multimodal Embodied Conversational Agent. In Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems (CHI ’21). Association for Computing Machinery, New York, NY, USA, Article 102, 1–10. https://doi.org/10.1145/3411764.3445708
[2] Geng, Scott, Revant Teotia, Purva Tendulkar, Sachit Menon, and Carl Vondrick. « Affective Faces for Goal-Driven Dyadic Communication. » arXiv preprint arXiv:2301.10939 (2023).
[3] Wei Zhao, Peng Xiao, Rongju Zhang, Yijun Wang, and Jianxin Lin. 2022. Semantic-aware Responsive Listener Head Synthesis. In Proceedings of the 30th ACM International Conference on Multimedia (MM ’22). Association for Computing Machinery, New York, NY, USA, 7065–7069. https://doi.org/10.1145/3503161.3551580

À propos de ce sujet de thèse

Lié à
Service
Service Information, Signal et Intelligence artificielle
Promoteurs
Thierry Dutoit
Kevin El Haddad

Contactez-nous pour obtenir de plus amples informations