Dec, 2023

视觉引导语言学习:语言游戏,数据集,任务和模型综述

TL;DR对于基于语言模型目标在大规模纯文本数据上进行训练的几种机器学习模型,在许多自然语言理解和生成任务上取得了令人印象深刻的结果。然而,对于语义的许多方面,仅仅通过 “倾听收音机” 是无法学习到的。本文系统地回顾了视觉 + 语言领域中提出的多个任务和模型。利用维特根斯坦的 “语言游戏” 思想,将这些任务分为 3 个不同的类别:1)区分性游戏,2)生成性游戏,和 3)交互式游戏。我们的文献分析提供了证据,表明未来的工作应该专注于重要的交互式游戏,在其中自然语言的交流对于解决关于物体指称和行动计划的不确定性是必要的,而物理体现则是理解场景和事件语义的重要条件。作为总体,这些是发展基于神经模型的扎根意义的关键要求。