Learning word meanings from images of natural scenes

Ákos Kádár*, Afra Alishahi* and Grzegorz Chrupała*
*Tilburg Center for Cognition and Communication, Tilburg University
Résumé
Les enfants sont très tôt confrontés au défi d’apprendre la signification des mots à partir de contextes bruités et ambigus. Les énoncés qui guident leur apprentissage sont émis au sein de scènes complexes qui rendent l’appariement entre indices visuels et linguistiques difficile. Un défi important de la modélisation informatique de l’acquisition du sens des mots réside en la proposition de représentations de scènes contenant des sources d’information et des propriétés statistiques similaires en complexité à des données naturelles. Nous proposons un nouveau modèle d’apprentissage de mots inter-situationnel qui prend en entrée des images de scènes naturelles accompagnées de leurs descriptions et apprend incrémentalement des associations probabilistes entre mots et traits visuels. Nous montrons, à travers un ensemble d’expériences, que ce modèle apprend des représentations de sens corrélées aux jugements de similarité humains, et qu’il produit, pour une image de scène donnée, des mots qui lui sont conceptuellement liés.