EMNLPMar, 2016

你看懂我想说的话了吗?语言歧义的视觉解决

TL;DR通过感知获得的复杂上下文信息与理解语言相辅相成。本文提出了一项新颖的基于场景的语言理解任务:在给定描绘该句子可能解释之一的视觉场景的情况下,将其消除歧义。为此,我们介绍了一个包含多义句子的新的多模态语料库,表示广泛的句法、语义和语篇歧义,并与可视化不同解释的视频相耦合。我们通过扩展决定句子是否被视频描绘的视觉模型来解决这个任务。我们演示了如何调整这样的模型以识别同一基础句子的不同解释,从而允许以统一的方式消除不同歧义类型的句子。