朝向视觉语法理解

Jan, 2024

Towards Visual Syntactical Understanding

Sayeed Shafayet Chowdhury, Soumyadeep Chandra, Kaushik Roy

TL;DR通过改变自然图像的句法（例如交换一个脸部的眼睛和鼻子）来调查深度神经网络对此类句法异常的敏感性，并提出了一个三阶段框架来实现深度神经网络的视觉句法理解。通过使用类似于 BERT 的图像掩蔽自编码器进行训练，我们在 CelebA 和 AFHQ 数据集上进行实验证明了方法的广义性能。

Abstract

syntax is usually studied in the realm of linguistics and refers to the arrangement of words in a sentence. Similarly, an image can be considered as a visual 'sentence', with the semantic parts of the image acting as 'words'. While →

syntax visual syntactic understanding deep neural networks dnns reconstruction module

发现论文，激发创造

图像语义和语法序列学习导向

通过引入 “图像语法” 的概念，结合卷积神经网络和视觉变换器，我们提出了一个两阶段的弱监督学习方法，利用深度聚类和特征细化生成部分 - 语义分割，并结合双向长短时记忆模块处理语义分割补丁序列以捕捉图像语法，实现了对图像补丁损坏的准确检测，在多种语义和句法损坏场景中，验证了我们的框架在 Celeb 和 SUNRGBD 数据集上能够实现 70% 到 90% 的语法验证准确度。

Jan, 2024

基于视觉的神经语法学习

探究了一种从视觉信号中学习句法的方法，发现简化版本的模型同样表现良好，其中名词的具体性是预测的主要因素。

May, 2020

显式表示语法提升预测意外情境下的句子布局

通过自然语言句子中的识别视觉实体和将其按照二维空间布局排列，需要对语言和空间进行构造性理解。本研究通过对比显示，如果句子提到了在训练期间看到的类似实体关系，则可以从隐式或显式编码句子句法的语言表示中预测布局。为了测试构造性理解，我们收集了一组语法正确的测试句子和布局，它们描述了在训练期间很可能没有见过的实体和关系的组合。结果显示，在这个测试集上的表现大幅下降，表明当前模型依赖于训练数据中的相关性，并且在理解输入句子的结构方面存在困难。我们提出了一种新颖的结构损失函数，更好地强制执行输入句子的句法结构，并在以文本为条件的 2D 空间布局预测任务中取得了显著的性能提升。该损失函数有潜力在其他生成任务中使用，其中基础的调节方式是树状结构。代码、训练模型和 USCOCO 评估集将通过 GitHub 提供。

Jan, 2024

视觉语境下的语义组合模型

本文探讨了视觉图像和语言语义的组合结构问题，并提出了一些方法，如 WinogroundVQA, Syntactic Neural Module Distillation, Causal Tracing for Image Captioning Models,Syntactic MeanPool 和 Cross-modal Attention Congruence Regularization，以提高这种组合结构的能力。

May, 2023

一种神经符号化方法用于识别语法正确的句子

本论文介绍一种使用神经符号方法验证英语句子的简化方式，其结合了现代 AI 技术，如语言模型，以解决文本摘要、问答和机器翻译等自然语言处理挑战。

Jul, 2023

自然语言多任务：分析和提高隐藏表示的句法显著性

训练多任务自动编码器进行语言任务，分析学习到的句子隐藏表示。加入翻译和词性解码器时，表示将显着改变。使用的解码器越多，模型根据句法相似性对句子进行聚类的效果越好。通过插值句子来探索表示空间的结构，得出很多有可识别句法结构的伪英语句子。最后，我们指出了模型的一个有意思的特性：两个句子之间的差分向量可以添加到第三个具有类似特征的句子中，以有意义的方式改变它。

Jan, 2018

通过分离语法和语义，在深度序列到序列模型中实现对组合概括的学习

本文提出一种基于神经机器翻译的新模型 Syntactic Attention，采用分离语法与语义学习的方式训练，拥有捕捉人类语言组成性结构的能力，相较于标准深度学习方法在具有组成性泛化任务的数据集 SCAN 上表现显著优异。

Apr, 2019

视觉引导的神经语法习得

本研究提出了 Visually Grounded Neural Syntax Learner (VG-NSL)，一种无需显式监督即可学习句法表示和结构的方法。VG-NSL 使用自然图像和标注的配对描述学习语法树结构，并在 MSCOCO 数据集和 Multi30K 数据集上展示了 VG-NSL 超越了不使用视觉元素作为辅助的无监督分析方法。

Jun, 2019

深度学习中的句法结构

本文介绍了现代深度神经网络在机器翻译等需要广泛语言技能的工程应用中取得的卓越性能，探讨它们是否从接触的原始数据中引导出类似于人类语法知识的思想，并讨论这些工作对理论语言学的广泛影响。

Apr, 2020

句法规划在组合式图像字幕生成中的作用

本文研究了不同的方法，通过规划标题的句法结构来提高在图像说明中的组合泛化的能力。实验表明，同时建模标记和句法标签可以增强 RNN 和 Transformer 模型的泛化能力，同时提高标准指标的性能。

Jan, 2021