视觉语境下的语义组合模型

May, 2023

Semantic Composition in Visually Grounded Language Models

Rohan Pandey

TL;DR本文探讨了视觉图像和语言语义的组合结构问题，并提出了一些方法，如 WinogroundVQA, Syntactic Neural Module Distillation, Causal Tracing for Image Captioning Models,Syntactic MeanPool 和 Cross-modal Attention Congruence Regularization，以提高这种组合结构的能力。

Abstract

What is sentence meaning and its ideal representation? Much of the expressive power of human language derives from semantic composition, the mind's ability to represent meaning hierarchically & relationally over

sentence meaning semantic composition visually grounded semantics compositional ability vision-language relation alignment

发现论文，激发创造

视觉场景的基于语义 grounded 语义构成

本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论，介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。

Jun, 2011

评估句向量表示中的组成

文章介绍了一种可以精确和控制地针对句向量中的组合含义信息的方法，利用一个专门的句子生成系统，创建遵循特定句法、语义和词汇约束条件的带注释的大型句子集。实验表明，这种方法能够从多种现有的句子表示模型中提取有用的信息，有助于理解这些系统对句子信息的捕获能力。

Sep, 2018

在基于图像场景环境的语义空间中融合视觉语义到句子表示中

本文目的在于通过学习一种中间的 representation space 将视觉信息转移到文本表示中，以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题，作者还提出了两个新的目标，来保证相关元素之间的相似性跨领域地保持和提高分类和语义相关性任务的性能。

Feb, 2020

神经组合指称语义问答

一个可不断微调的端到端不可分化模型，可以组合问题中所提到的不同方面，并使用知识图谱，对复合问题进行多步推理，例如，通过学习语义运算符，实现语义操作和推理。

Aug, 2018

基于语言模型的组合概括

通过扩展语义解析的组成概括工作，我们为生成与知识图谱配对的自然语言问题开发了一种方法，以在不受限于语言模型权重隐式编码的信息的同时，对这些模型从知识图谱中学习和概括程度进行控制性评估，我们发现现有的将语言模型与知识图谱组合的方法在未见过长度序列和新组合的基础组件方面存在泛化问题，因此，我们希望我们的工作和发布的数据集能够促进未来研究并探索如何更好地将语言模型与结构化知识表示相结合的方法。

Jun, 2024

结构化变分跨图对应学习的组合时序对齐

介绍了一个新的机遇 Compositional Temporal Grounding 任务和两个新的数据集拆分，即 Charades-CG 和 ActivityNet-CG，用于测试模型的组合泛化能力，提出了一个变异的跨图推理框架来应对这一挑战。

Mar, 2022

针对深度组合模型的语法感知多义词嵌入

本研究详细介绍了一个基于丰富的单词嵌入的组成分布式框架，旨在促进句子中单词之间的交互，并使用环境中的句法信息来增强向量。研究结果表明，该框架在 MSRPar 任务上取得了具有代表性的结果。

Aug, 2015

自适应语言建模的基于实例的组合输出

本研究提出了基于结构化词典的完全组成的输出嵌入层，用于改善语言模型在新域和任务中的适应能力问题，为我们所知，这是第一个单词级别的语言模型，其大小不取决于训练词汇表，并通过低频词的样本效率来提高精度。

Sep, 2020

神经网络求解数学问题中出现了组合处理

本文探讨了人类学习机制中的组合性问题，并扩展了先前针对自然语言的神经网络研究到数学推理领域。研究发现，神经网络不仅能够学习到训练数据中的结构关系，而且能够将这些知识用于指导复合意义的组合。

May, 2021

Winoground: 探究视觉和语言模型的视觉语言组成性

介绍了一项新的任务和数据集 Winoground，用于评估视觉和语言模型进行视觉 - 语言组成推理的能力，展示了目前最先进的视觉和语言模型在该任务上表现不尽如人意的情况，并探讨如何改进模型的方法。

Apr, 2022