Contrôle d’Expressions d’Agents Intelligents pour les Interactions Homme-Agent et les Applications de Réalité Etendue
-
TypeDoctorat
Description
L’un des principaux piliers de la révolution industrielle actuelle est la réalité étendue (eXtended Reality, XR). Ce sujet a suscité beaucoup d’intérêt tant dans le monde académique que dans l’industrie (Meta, Apple, Google, Nvidia, etc.), en raison de son impact socioculturel et économique potentiel.
Dans le contexte du projet collaboratif Wal4XR, qui rassemble 5 universités de Wallonie et de Bruxelles autour des XR, cette thèse de doctorat se concentrera sur l’exploration de systèmes capables de contrôler l’émotion/l’humeur exprimée par des agents virtuels dans une configuration interactive. L’objectif est de permettre à un agent d’interagir de manière autonome avec un utilisateur humain, et d’adapter son comportement de manière à correspondre à l’humeur/état affectif imposé par un autre moniteur humain.
Les agents virtuels interactifs sont des outils importants pour l’interaction homme-machine, en particulier dans les médias de réalité étendue, et ils font l’objet de recherches depuis plusieurs décennies. Lorsqu’il s’agit d’un agent interactif autonome, l’agent doit être capable de percevoir correctement les données de l’utilisateur et d’y répondre automatiquement de manière appropriée en fonction de l’objectif de l’agent. Le défi consiste à traiter non seulement les réponses verbales qui sont sémantiquement bien adaptées à l’entrée, mais aussi les réponses non verbales telles que le rire, le hochement de tête, etc. L’inclusion d’expressions non verbales dans une interaction homme-agent améliorera l’expérience de l’utilisateur [1]. Des travaux tels que [2,3] explorent des solutions initiales à des problèmes persistants tels que la contrôlabilité des expressions générées, la précision de la réponse fournie (dans différentes modalités) et la correspondance entre les expressions non verbales et le texte sémantique généré.
Concrètement, ce travail se concentrera sur les systèmes d’IA pour générer des expressions verbales et non verbales dans plusieurs modalités (audio, expressions faciales, gestes, etc.) de manière autonome dans un scénario d’interaction avec un utilisateur, en suivant des états affectifs prédéfinis. La solution développée sera testée dans un cas d’utilisation concret. Les contributions de cette thèse sont 1) l’utilisation conjointe d’expressions verbales et non-verbales comme moyen de communication d’un agent interactif autonome dans un scénario XR, 2) le contrôle de l’émotion ou de l’humeur exprimée par l’agent interactif autonome. En effet, bien que des travaux existent sur les agents réactifs, le contrôle des dimensions émotionnelles de l’agent interactif reste un défi.
[1] Deepali Aneja, Rens Hoegen, Daniel McDuff, and Mary Czerwinski. 2021. Understanding Conversational and Expressive Style in a Multimodal Embodied Conversational Agent. In Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems (CHI ’21). Association for Computing Machinery, New York, NY, USA, Article 102, 1–10. https://doi.org/10.1145/3411764.3445708
[2] Geng, Scott, Revant Teotia, Purva Tendulkar, Sachit Menon, and Carl Vondrick. “Affective Faces for Goal-Driven Dyadic Communication.” arXiv preprint arXiv:2301.10939 (2023).
[3] Wei Zhao, Peng Xiao, Rongju Zhang, Yijun Wang, and Jianxin Lin. 2022. Semantic-aware Responsive Listener Head Synthesis. In Proceedings of the 30th ACM International Conference on Multimedia (MM ’22). Association for Computing Machinery, New York, NY, USA, 7065–7069. https://doi.org/10.1145/3503161.3551580
Mission
- Poursuivre des recherches en vue de la réalisation des objectifs susmentionnés
- Générer des ressources présentant vos travaux de recherche et les mettre à disposition de la communauté à des fins de reproductibilité
- Participer aux différentes réunions et événements dans le cadre du projet Wal4XR
Profil
Vous êtes titulaire d’un master en informatique, en génie électrique ou équivalent, idéalement axé sur l’un des domaines d’intérêt de ce projet.
Compétences requises
- à l’aise dans le travail autonome et en équipe
- Capable de s’adapter et d’acquérir rapidement de nouvelles compétences
- Bonne communication orale et écrite
- Expérience ou expertise dans plus d’un des domaines suivants et intérêt pour l’apprentissage des autres : apprentissage automatique (apprentissage profond en particulier), statistiques, modélisation 3D.
- Bonnes compétences en programmation en Python
Compétences idéales
- Good programming skills in C# and C++
Proven record in research, software engineering, software development, machine learning, 3D modeling or XR related fields in general.
Intéressé ?
Envoyer un courriel avec CV et lettre de motivation au Prof. T. Dutoit (thierry.dutoit @ umons.ac.be)