基于视觉的神经语法学习
本研究提出了 Visually Grounded Neural Syntax Learner (VG-NSL),一种无需显式监督即可学习句法表示和结构的方法。VG-NSL 使用自然图像和标注的配对描述学习语法树结构,并在 MSCOCO 数据集和 Multi30K 数据集上展示了 VG-NSL 超越了不使用视觉元素作为辅助的无监督分析方法。
Jun, 2019
本文将视觉与语言相结合用于语言理解,采用一种基于概率无上下文文法模型的 full-differentiable 端到端视觉理解模型,在 MSCOCO 测试标题上取得了新的最佳效果,证实了视觉基础在短语结构语法归纳中的有效性。
Sep, 2020
通过对具有意义的监督的视觉数据进行训练,我们发现在具有限定语言数据的情况下,视觉监督可以提高词汇学习的效率,但这种改进是有限的,并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。
Oct, 2023
通过改变自然图像的句法(例如交换一个脸部的眼睛和鼻子)来调查深度神经网络对此类句法异常的敏感性,并提出了一个三阶段框架来实现深度神经网络的视觉句法理解。通过使用类似于 BERT 的图像掩蔽自编码器进行训练,我们在 CelebA 和 AFHQ 数据集上进行实验证明了方法的广义性能。
Jan, 2024
通过从视觉感知语音进行短语结构识别的研究,我们提出了语音 - 视觉神经语法学习器(AV-NSL),通过听音和看图,无需接触文本即可学习短语结构,训练集是配对的图像和口述字幕,AV-NSL 展示出推断有意义的短语结构的能力,对英语和德语都可以与自然监督的文本解析器推导出的结构相媲美,研究结果扩展了无监督语言习得和基于场景的语法识别的以前研究,并提出了一种桥接两个主题的方法。
Oct, 2023
本文提出了基于语言结构的机器学习任务,并通过三种方案展示了其潜力和可行性,包括通过视觉基现学习语法结构,通过执行感知方法映射句子到语义结构,并通过跨语言词对齐和子结构投影方法改进零样本跨语言依赖分析的性能。
Jun, 2024
文章提出了一种弱监督方法,该方法以图像 - 句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。
May, 2017
我们介绍了训练在监督图像字幕语料库上的多种模型,用于预测给定字幕的图像特征,以执行句子表示接地。我们训练了一个接地的句子编码器,在 Coco 字幕和图像检索方面取得了良好的性能,随后展示了该编码器可以成功地转移到各种 NLP 任务,与仅文本模型相比,性能有所提高。最后,我们分析了接地的贡献,表明该系统学习到的单词嵌入优于非接地的单词嵌入。
Jul, 2017
本研究提出了一种简单且非常有效的预训练词嵌入视觉对齐方法,使得即使对于抽象词,我们也能生成受视觉基础支撑的嵌入,并且在一系列的单词相似性基准测试中证明了视觉基础支撑不仅有益于具体词,还有益于抽象词。
Jun, 2022
本文提出了一种新型的无监督视觉基础框架,使用概念学习作为代理任务来获得自我监督,以鼓励模型定位和解释语义属性,在多项实验中,该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%,在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。
Mar, 2018