通过基于实景的学习掌握语言结构
文章提出了一种弱监督方法,该方法以图像 - 句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。
May, 2017
通过对具有意义的监督的视觉数据进行训练,我们发现在具有限定语言数据的情况下,视觉监督可以提高词汇学习的效率,但这种改进是有限的,并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。
Oct, 2023
对于基于语言模型目标在大规模纯文本数据上进行训练的几种机器学习模型,在许多自然语言理解和生成任务上取得了令人印象深刻的结果。然而,对于语义的许多方面,仅仅通过 “倾听收音机” 是无法学习到的。本文系统地回顾了视觉 + 语言领域中提出的多个任务和模型。利用维特根斯坦的 “语言游戏” 思想,将这些任务分为 3 个不同的类别:1)区分性游戏,2)生成性游戏,和 3)交互式游戏。我们的文献分析提供了证据,表明未来的工作应该专注于重要的交互式游戏,在其中自然语言的交流对于解决关于物体指称和行动计划的不确定性是必要的,而物理体现则是理解场景和事件语义的重要条件。作为总体,这些是发展基于神经模型的扎根意义的关键要求。
Dec, 2023
研究了现代神经语言模型在少量训练下模仿英语句法结构的能力,发现这些模型能够从最少的训练样本中正确识别并推广句法规律,但在接受结构性监督的情况下表现更好。
Oct, 2020
研究通过现实世界数据进行基于场景语言学习,探索在用户与搜索引擎之间自然互动中建模教师 - 学生动态学习的出现、语义的普遍性,学习场景、表示和组合的功能,并表明该方法在组合性和零 - shot 推理任务方面提供了比 SOTA 的非基于场景的模型更好的结果和泛化能力。
Apr, 2021
提出一种基于端到端可训练神经网络架构,用于在 3D 环境中执行自然语言指令的任务导向语言接地问题,并使用带门控的注意力机制来组合图像和文本表示,并学习执行任务的策略。在一个新的基于 3D 游戏引擎的环境中展示了该模型在未见过的指令和环境下的有效性。
Jun, 2017
本研究提出了 Visually Grounded Neural Syntax Learner (VG-NSL),一种无需显式监督即可学习句法表示和结构的方法。VG-NSL 使用自然图像和标注的配对描述学习语法树结构,并在 MSCOCO 数据集和 Multi30K 数据集上展示了 VG-NSL 超越了不使用视觉元素作为辅助的无监督分析方法。
Jun, 2019
本文将视觉与语言相结合用于语言理解,采用一种基于概率无上下文文法模型的 full-differentiable 端到端视觉理解模型,在 MSCOCO 测试标题上取得了新的最佳效果,证实了视觉基础在短语结构语法归纳中的有效性。
Sep, 2020
本文提出了一种对视觉场景图和语言依赖树进行联合建模的无监督学习任务,并构造了一个新的数据集 VLParse,提出了基于对比学习的 VLGAE 框架用于 VL 短语理解和语言语法归纳。实验结果表明了视觉信息和语言依赖关系对于 VL 结构建模的有效性。
Mar, 2022