视觉场景的基于语义 grounded 语义构成

Jun, 2011

视觉场景的基于语义 grounded 语义构成

Grounded Semantic Composition for Visual Scenes

P. Gorniak, D. Roy

TL;DR本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论，介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。

Abstract

We present a visually-grounded language understanding model based on a study of how people verbally describe objects in scenes. The emphasis of the model is on the combination of individual word meanings to produce meanings for complex →

visually-grounded language understanding referring expressions semantics compositional parsing visual context

发现论文，激发创造

视觉语境下的语义组合模型

本文探讨了视觉图像和语言语义的组合结构问题，并提出了一些方法，如 WinogroundVQA, Syntactic Neural Module Distillation, Causal Tracing for Image Captioning Models,Syntactic MeanPool 和 Cross-modal Attention Congruence Regularization，以提高这种组合结构的能力。

May, 2023

在基于图像场景环境的语义空间中融合视觉语义到句子表示中

本文目的在于通过学习一种中间的 representation space 将视觉信息转移到文本表示中，以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题，作者还提出了两个新的目标，来保证相关元素之间的相似性跨领域地保持和提高分类和语义相关性任务的性能。

Feb, 2020

多模态视觉语言模型中的基于实体的视觉空间推理

利用大规模视觉语言模型评估其在不同视觉推理任务中的性能，特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名，结合物体及其位置的核心语义来计算空间子句的最终评分，并比较不同视觉语言模型在空间关系推理方面的能力。

Aug, 2023

基于视觉语境的多模态词表示学习

本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法，通过将视觉上下文元素整合到多模态 skip-gram 模型中，探索了何种因素可以作为视觉上下文，并进行了实验和分析。

Nov, 2017

认知机器人的常识场景语义：走向基于视觉 - 运动相互作用的根源

本文提出了一个基于人类重心的空间和运动表示的低层次视觉处理与高层次人类中心的空间和运动表示相结合的方法来解决物体交互和室内运动等问题。

Sep, 2017

基于实践学习的组合向量语义

提出了一种在脉冲神经网络结构中实现复合分布语义、解决概念绑定问题的方法，利用标记图像进行词向量训练。

Jan, 2024

看见优势：通过视觉衍生词嵌入更好地捕捉人类的语义知识

本文旨在利用图像丰富文本语义模型，以更好地捕捉词汇意义的认知方面，并通过大型启动实验展示在视觉基础词嵌入中添加视觉信息的预测性能更好，其中与人类单词相似性的相关性也更高，并展示了视觉基础嵌入可以捕捉到仅使用纯文本不能提取的信息。

Feb, 2022

学习使用语言树结构合成和推理视觉基础

本文提出了一种基于 RVG-TREE 的自然语言基础模型，其可以自动组成二叉树结构进行语言解析，并沿着树进行自底向上的视觉推理，实现更具解释性的推理效果。

Jun, 2019

自适应语言建模的基于实例的组合输出

本研究提出了基于结构化词典的完全组成的输出嵌入层，用于改善语言模型在新域和任务中的适应能力问题，为我们所知，这是第一个单词级别的语言模型，其大小不取决于训练词汇表，并通过低频词的样本效率来提高精度。

Sep, 2020

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019