通过基于实景的学习掌握语言结构

Jun, 2024

通过基于实景的学习掌握语言结构

Learning Language Structures through Grounding

Freda Shi

TL;DR本文提出了基于语言结构的机器学习任务，并通过三种方案展示了其潜力和可行性，包括通过视觉基现学习语法结构，通过执行感知方法映射句子到语义结构，并通过跨语言词对齐和子结构投影方法改进零样本跨语言依赖分析的性能。

Abstract

Language is highly structured, with syntactic and semantic structures, to some extent, agreed upon by speakers of the same language. With implicit or explicit awareness of such structures, humans can learn and use language efficiently and generalize to sentences that contain unseen wor

language structures grounding syntactic parses semantic structures cross-lingual word alignment

发现论文，激发创造

具有语言结构的短语弱监督视觉定位

文章提出了一种弱监督方法，该方法以图像 - 句子对为输入，学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型，使用两种精心设计的损失函数学习短语的视觉基础，并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。

May, 2017

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

视觉引导语言学习：语言游戏，数据集，任务和模型综述

对于基于语言模型目标在大规模纯文本数据上进行训练的几种机器学习模型，在许多自然语言理解和生成任务上取得了令人印象深刻的结果。然而，对于语义的许多方面，仅仅通过 “倾听收音机” 是无法学习到的。本文系统地回顾了视觉 + 语言领域中提出的多个任务和模型。利用维特根斯坦的 “语言游戏” 思想，将这些任务分为 3 个不同的类别：1）区分性游戏，2）生成性游戏，和 3）交互式游戏。我们的文献分析提供了证据，表明未来的工作应该专注于重要的交互式游戏，在其中自然语言的交流对于解决关于物体指称和行动计划的不确定性是必要的，而物理体现则是理解场景和事件语义的重要条件。作为总体，这些是发展基于神经模型的扎根意义的关键要求。

Dec, 2023

结构监督改进神经语言模型中的小样本学习和句法泛化

研究了现代神经语言模型在少量训练下模仿英语句法结构的能力，发现这些模型能够从最少的训练样本中正确识别并推广句法规律，但在接受结构性监督的情况下表现更好。

Oct, 2020

一个（搜索）框内的语言：以真实世界的人机交互为基础的语言学习

研究通过现实世界数据进行基于场景语言学习，探索在用户与搜索引擎之间自然互动中建模教师 - 学生动态学习的出现、语义的普遍性，学习场景、表示和组合的功能，并表明该方法在组合性和零 - shot 推理任务方面提供了比 SOTA 的非基于场景的模型更好的结果和泛化能力。

Apr, 2021

用于任务导向的语言基础建模的门控注意力架构

提出一种基于端到端可训练神经网络架构，用于在 3D 环境中执行自然语言指令的任务导向语言接地问题，并使用带门控的注意力机制来组合图像和文本表示，并学习执行任务的策略。在一个新的基于 3D 游戏引擎的环境中展示了该模型在未见过的指令和环境下的有效性。

Jun, 2017

视觉引导的神经语法习得

本研究提出了 Visually Grounded Neural Syntax Learner (VG-NSL)，一种无需显式监督即可学习句法表示和结构的方法。VG-NSL 使用自然图像和标注的配对描述学习语法树结构，并在 MSCOCO 数据集和 Multi30K 数据集上展示了 VG-NSL 超越了不使用视觉元素作为辅助的无监督分析方法。

Jun, 2019

口语视觉模型：数据集、架构和评价技术综述

本综述纵览近 20 年来视觉基础口语建模的发展，重点讨论了语言学习的核心研究问题、建模架构以及评估指标和分析技术。

Apr, 2021

视觉基础复合 PCFG

本文将视觉与语言相结合用于语言理解，采用一种基于概率无上下文文法模型的 full-differentiable 端到端视觉理解模型，在 MSCOCO 测试标题上取得了新的最佳效果，证实了视觉基础在短语结构语法归纳中的有效性。

Sep, 2020

无监督视觉 - 语言解析：通过依赖关系无缝桥接视觉场景图与语言结构

本文提出了一种对视觉场景图和语言依赖树进行联合建模的无监督学习任务，并构造了一个新的数据集 VLParse，提出了基于对比学习的 VLGAE 框架用于 VL 短语理解和语言语法归纳。实验结果表明了视觉信息和语言依赖关系对于 VL 结构建模的有效性。

Mar, 2022