探索图像字幕中的基础问题

May, 2023

Exploring the Grounding Issues in Image Caption

Pin-Er Chen, Hsin-Yu Chou, Po-Ya Angela Wang, Yu-Hsiang Tseng, Shu-Kai Hsieh

TL;DR本文从计算认知语言学的角度探讨了多模态语义表示中的基础问题，注释和分析了五个感知属性：可操作性、感知显著性、物体数量、凝视引导和生态学生态位关联。我们对来自 Flickr30k 数据集的选定图像进行了探究性分析和统计建模，发现了在构建过程中，观看者将情境意义和可操作性与多模态语义统合到一起，而这些因素被巩固为包含视觉和文本元素的图像文字数据集中的影像字幕。本研究显示情境意义和可操作性基础对于理解系统生成适当回应至关重要，并有潜力推动人类对不同情境下的构造的理解。

Abstract

This paper explores the grounding issue concerning multimodal semantic representation from a computational cognitive-linguistic view. Five perceptual properties of groundedness are annotated and analyzed: affordance

multimodal semantic representation grounding perceptual properties cognitive attention affordance

发现论文，激发创造

文本蕴含基础

本文研究了文本蕴涵中的语义关系 —— 通过可能世界来分析前提和假说之间的关系，同时结合图像进行多模态的分析，结果表明文本和视觉信息相结合可以更好地进行文本蕴涵，但当前多模态模型在 “接地” 方面还不够优化。

Jun, 2018

学习基于图像的句子表示

我们介绍了训练在监督图像字幕语料库上的多种模型，用于预测给定字幕的图像特征，以执行句子表示接地。我们训练了一个接地的句子编码器，在 Coco 字幕和图像检索方面取得了良好的性能，随后展示了该编码器可以成功地转移到各种 NLP 任务，与仅文本模型相比，性能有所提高。最后，我们分析了接地的贡献，表明该系统学习到的单词嵌入优于非接地的单词嵌入。

Jul, 2017

视觉场景的基于语义 grounded 语义构成

本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论，介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。

Jun, 2011

以交互为预训练的地面功能表示学习

借助神经网络建模物体状态，可以实现有效的物体功能信息提取并与传统语义学模型相结合，能够在基于图像的语言学习上取得更好的表现。

Jul, 2022

AffordanceLLM: 视觉语言模型的作用感基础

通过利用经过预训练的大规模视觉语言模型中的丰富世界、抽象和人 - 物体相互作用知识，我们提出的模型在自然环境中的对象可承受性接地任务上展示出明显的性能提升，我们进一步证明它可以对训练过程中未见过的随机互联网图像中的对象进行可承受性接地。

Jan, 2024

看见优势：通过视觉衍生词嵌入更好地捕捉人类的语义知识

本文旨在利用图像丰富文本语义模型，以更好地捕捉词汇意义的认知方面，并通过大型启动实验展示在视觉基础词嵌入中添加视觉信息的预测性能更好，其中与人类单词相似性的相关性也更高，并展示了视觉基础嵌入可以捕捉到仅使用纯文本不能提取的信息。

Feb, 2022

语言处理的多模态基础

本文讨论多模态处理的最新进展，探讨了多模态信息流和不同的多模态表示方法，讨论了多模态基础对于语言处理任务的益处和挑战。特别着重研究动词的多模态基础，对语言的组成能力起着重要作用。

Jun, 2018

在基于图像场景环境的语义空间中融合视觉语义到句子表示中

本文目的在于通过学习一种中间的 representation space 将视觉信息转移到文本表示中，以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题，作者还提出了两个新的目标，来保证相关元素之间的相似性跨领域地保持和提高分类和语义相关性任务的性能。

Feb, 2020

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019

基于视觉语境的多模态词表示学习

本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法，通过将视觉上下文元素整合到多模态 skip-gram 模型中，探索了何种因素可以作为视觉上下文，并进行了实验和分析。

Nov, 2017