视觉场景的基于语义 grounded 语义构成
本文探讨了视觉图像和语言语义的组合结构问题,并提出了一些方法,如 WinogroundVQA, Syntactic Neural Module Distillation, Causal Tracing for Image Captioning Models,Syntactic MeanPool 和 Cross-modal Attention Congruence Regularization,以提高这种组合结构的能力。
May, 2023
本文目的在于通过学习一种中间的 representation space 将视觉信息转移到文本表示中,以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题,作者还提出了两个新的目标,来保证相关元素之间的相似性跨领域地保持和提高分类和语义相关性任务的性能。
Feb, 2020
利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理方面的能力。
Aug, 2023
本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法,通过将视觉上下文元素整合到多模态 skip-gram 模型中,探索了何种因素可以作为视觉上下文,并进行了实验和分析。
Nov, 2017
本文提出了一个基于人类重心的空间和运动表示的低层次视觉处理与高层次人类中心的空间和运动表示相结合的方法来解决物体交互和室内运动等问题。
Sep, 2017
本文旨在利用图像丰富文本语义模型,以更好地捕捉词汇意义的认知方面,并通过大型启动实验展示在视觉基础词嵌入中添加视觉信息的预测性能更好,其中与人类单词相似性的相关性也更高,并展示了视觉基础嵌入可以捕捉到仅使用纯文本不能提取的信息。
Feb, 2022
本文提出了一种基于 RVG-TREE 的自然语言基础模型,其可以自动组成二叉树结构进行语言解析,并沿着树进行自底向上的视觉推理,实现更具解释性的推理效果。
Jun, 2019
本研究提出了基于结构化词典的完全组成的输出嵌入层,用于改善语言模型在新域和任务中的适应能力问题,为我们所知,这是第一个单词级别的语言模型,其大小不取决于训练词汇表,并通过低频词的样本效率来提高精度。
Sep, 2020
本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系,以及跨模态图匹配策略来解决多短语视觉定位任务,实验证明我们的方法优于现有技术,并提供了开源代码。
Nov, 2019