Situated Meaning in Multimodal Dialogue: Human-Robot and Human-Computer Interactions

James Pustejovsky* and Nikhil Krishnaswamy**
*Department of Computer Science, Brandeis University
**Department of Computer Science, Colorado State University
Résumé
La demande d’interactions naturelles homme-ordinateur et homme-robot plus sophistiquées augmente rapidement, car les utilisateurs s’habituent davantage aux interactions de type conversation avec leurs appareils. Cela nécessite non seulement la reconnaissance et la génération robustes d’expressions à travers de multiples modalités (langage, geste, vision, action), mais aussi l’encodage du sens situé : (a) l’ancrage situé des expressions dans le contexte ; (b) une interprétation de l’expression contextualisée à la dynamique du discours; et (c) une appréciation des actions et des conséquences associées aux objets dans l’environnement. Nous présentons VoxWorld, une plateforme de simulation multimodale pour la modélisation des interactions homme-machine. Il est construit sur le langage VoxML et offre une plate-forme riche pour étudier la génération et l’interprétation d’expressions, telles qu’elles sont véhiculées à travers de multiples modalités, notamment : le langage, le geste et la visualisation des objets en mouvement et des agents agissant dans leur environnement.
Résumé (en anglais)
The demand for more sophisticated natural human-computer and human-robot interactions is rapidly increasing, as users become more accustomed to conversation-like interactions with their devices. This requires not only the robust recognition and generation of expressions through multiple modalities (language, gesture, vision, action), but also the encoding of situated meaning: (a) the situated grounding of expressions in context; (b) an interpretation of the expression contextualized to the dynamics of the discourse; and (c) an appreciation of the actions and consequences associated with objects in the environment. In this paper, we introduce VoxWorld, a multimodal simulation platform for modeling human-computer interactions. It is built on the language VoxML, and offers a rich platform for studying the generation and interpretation of expressions, as conveyed through multiple modalities, including: language, gesture, and the visualization of objects moving and agents acting in their environment.