显式表示语法提升预测意外情境下的句子布局

Jan, 2024

显式表示语法提升预测意外情境下的句子布局

Explicitly Representing Syntax Improves Sentence-to-layout Prediction of Unexpected Situations

Wolf Nuyts, Ruben Cartuyvels, Marie-Francine Moens

TL;DR通过自然语言句子中的识别视觉实体和将其按照二维空间布局排列，需要对语言和空间进行构造性理解。本研究通过对比显示，如果句子提到了在训练期间看到的类似实体关系，则可以从隐式或显式编码句子句法的语言表示中预测布局。为了测试构造性理解，我们收集了一组语法正确的测试句子和布局，它们描述了在训练期间很可能没有见过的实体和关系的组合。结果显示，在这个测试集上的表现大幅下降，表明当前模型依赖于训练数据中的相关性，并且在理解输入句子的结构方面存在困难。我们提出了一种新颖的结构损失函数，更好地强制执行输入句子的句法结构，并在以文本为条件的 2D 空间布局预测任务中取得了显著的性能提升。该损失函数有潜力在其他生成任务中使用，其中基础的调节方式是树状结构。代码、训练模型和 USCOCO 评估集将通过 GitHub 提供。

Abstract

Recognizing visual entities in a natural language sentence and arranging them in a 2d spatial layout require a compositional understanding

visual entities 2d spatial layout compositional understanding sentence syntax structural loss function

发现论文，激发创造

句法规划在组合式图像字幕生成中的作用

本文研究了不同的方法，通过规划标题的句法结构来提高在图像说明中的组合泛化的能力。实验表明，同时建模标记和句法标签可以增强 RNN 和 Transformer 模型的泛化能力，同时提高标准指标的性能。

Jan, 2021

自然语言多任务：分析和提高隐藏表示的句法显著性

训练多任务自动编码器进行语言任务，分析学习到的句子隐藏表示。加入翻译和词性解码器时，表示将显着改变。使用的解码器越多，模型根据句法相似性对句子进行聚类的效果越好。通过插值句子来探索表示空间的结构，得出很多有可识别句法结构的伪英语句子。最后，我们指出了模型的一个有意思的特性：两个句子之间的差分向量可以添加到第三个具有类似特征的句子中，以有意义的方式改变它。

Jan, 2018

视觉语境下的语义组合模型

本文探讨了视觉图像和语言语义的组合结构问题，并提出了一些方法，如 WinogroundVQA, Syntactic Neural Module Distillation, Causal Tracing for Image Captioning Models,Syntactic MeanPool 和 Cross-modal Attention Congruence Regularization，以提高这种组合结构的能力。

May, 2023

朝向视觉语法理解

通过改变自然图像的句法（例如交换一个脸部的眼睛和鼻子）来调查深度神经网络对此类句法异常的敏感性，并提出了一个三阶段框架来实现深度神经网络的视觉句法理解。通过使用类似于 BERT 的图像掩蔽自编码器进行训练，我们在 CelebA 和 AFHQ 数据集上进行实验证明了方法的广义性能。

Jan, 2024

评估句向量表示中的组成

文章介绍了一种可以精确和控制地针对句向量中的组合含义信息的方法，利用一个专门的句子生成系统，创建遵循特定句法、语义和词汇约束条件的带注释的大型句子集。实验表明，这种方法能够从多种现有的句子表示模型中提取有用的信息，有助于理解这些系统对句子信息的捕获能力。

Sep, 2018

像素句子表示学习

通过视觉表征学习方法及无监督学习，我们提出了一种对文本进行语义学习的框架，借鉴认知科学和语言学的概念，利用错别字和词序混排等方法进行文本扰动，实现对文本的连续感知，并通过大规模无监督主题对齐训练和自然语言推理监督，达到与现有自然语言处理方法相当的语义文本相似度性能，展示了方法的跨语言迁移能力和语言迭代训练中的独特突破模式。

Feb, 2024

通过分离语法和语义，在深度序列到序列模型中实现对组合概括的学习

本文提出一种基于神经机器翻译的新模型 Syntactic Attention，采用分离语法与语义学习的方式训练，拥有捕捉人类语言组成性结构的能力，相较于标准深度学习方法在具有组成性泛化任务的数据集 SCAN 上表现显著优异。

Apr, 2019

将视觉空间、语言和常识结构融合于故事可视化

本文讨论如何更好地将文本转化为对应的图像序列，包括利用 Transformers、constituency parse trees、commonsense 信息以及 visuo-spatial 信息，最终提高了生成图像的质量和一致性。

Oct, 2021

图像 - 文本 - 图形空间粗糙到精细对比学习，旨在提高视觉语言组合能力

通过构建图像场景的文本表示形式，提出了一种图形分解和增强框架以进行对比学习，同时提出了一种用于改善 scene graph 空间中属性绑定和关系理解的负样本挖掘技术，通过大量实验证明了该方法的有效性。

May, 2023

联合学习标记句子和单词

该研究探讨了不同颗粒度的目标如何用于学习更好的语言表示，并提出了一种架构来联合学习标记句子和标记令牌，最终通过注意力机制将每个级别的预测组合，其中令牌级别的标签也作为显式监督来合成句子级别的表示，实验结果表明，通过在多个级别上联合执行这些任务，模型在句子分类和序列标记方面都取得了实质性的改进。

Nov, 2018