VLC-BERT：上下文化通识知识视觉问答

Oct, 2022

VLC-BERT：上下文化通识知识视觉问答

VLC-BERT: Visual Question Answering with Contextualized Commonsense Knowledge

Sahithya Ravi, Aditya Chinchure, Leonid Sigal, Renjie Liao, Vered Shwartz

TL;DR本研究提出了 VLC-BERT 模型，该模型针对需要常识推理的视觉问答任务，通过使用预训练的 Commonsense Transformer（COMET）模型产生、选择和编码外部常识知识，结合视觉和文本线索，超越了使用静态知识库的现有模型.

Abstract

There has been a growing interest in solving visual question answering (VQA) tasks that require the model to reason beyond the content present in the image. In this work, we focus on questions that require commonsense r

visual question answering commonsense reasoning contextualized knowledge pre-trained model comet

发现论文，激发创造

视觉和语言推理：探索补充知识的益处

本文研究了将通用知识库中的知识注入视觉 - 语言模型中，并通过辅助训练目标增加了语义和关系知识的表征，实现了对问题回答、视觉推理等任务中的性能提升，这种技术不依赖于特定的模型，具有较小的计算开销。

Jan, 2021

精确赋能，过度分散：动态注入语言模型中的视觉问答知识

通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均 4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。

Jun, 2024

elBERto: 自监督通识学习用于问答

本文提出了一种自我监督的双向编码器表示学习共存框架（elBERto）, 该框架由五项自我监督任务组成，用于在掌握上下文中的丰富常识的情况下，强制模型充分利用额外的训练信号从而提高通识问题回答的准确性。实验表明，使用该框架在 WIQA、CosmosQA 和 ReClor 数据集上均可获得优异成绩，并且表现出了多种常识的学习能力和能够利用上下文动态性的特点。

Mar, 2022

KM-BART：用于视觉常识生成的知识增强多模态 BART 模型

研究人员提出了一种称为 KM-BART 的知识增强的多模态序列到序列模型，可以从图像和文本的多模态输入中推理出常识知识，进而开发了新的预训练任务来提高模型在视觉常识生成任务中的性能，实验结果表明通过这些新的预训练任务，我们的模型在 VCG 任务上达到了最先进的性能水平。

Jan, 2021

视觉 - 语言 Transformer 是否具备视觉常识？对 VCR 的经验研究

此研究旨在通过提供合理的理由作为预测答案的原因，解释并回答视觉场景问题。尽管 Vision-Language Transformers 在表现上令人满意，但它们存在预训练效果有限、意外的语言偏见、模型架构受限和忽视重要的物体 - 标签相关性等缺点。因此，从数据集、评估指标和训练技巧等角度，本研究对于未来研究提出了一些方向，有望让研究人员重新审视 VCR 的直觉和目标，并帮助克服视觉推理中的挑战。

May, 2024

评估预训练语言模型中的常识

本研究考察了 GPT、BERT、XLNet 和 RoBERTa 等四个基于预训练语言模型的通感知能力，通过在七个具有挑战性的基准测试中测试他们，在促进模型通感知能力方面，语言建模及其变体是有效的目标，而双向上下文和更大的训练集是额外的加分项。此外，我们发现目前的模型在需要更多必要推理步骤的任务上表现不佳。最后，我们通过制作相关的双重测试用例来测试模型的鲁棒性。有趣的是，模型在这些测试用例上表现混乱，这表明它们只是在表面上学习通感知而不是深层次的知识。我们公开了一个名为 CATs 的测试集，以供未来的研究使用。

Nov, 2019

通过推理监督实现可解释的视觉问答

我们提出了一种新的视觉问答架构，通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足，并通过相似性损失将模型的视觉注意力引导到场景的重要元素，从而提高模型的视觉感知能力和性能。

Sep, 2023

基于知识的 VQA 的知识浓缩和推理

我们提出两个协同模型：知识浓缩模型和知识推理模型。这两种浓缩的知识被无缝地集成到我们的知识推理模型中，巧妙地导航综合信息以得出最终答案。与以前的方法相比，我们的方法在基于知识的 VQA 数据集上（OK-VQA 的 65.1％，A-OKVQA 的 60.1％）取得了最先进的性能，而不依赖 GPT-3（175B）生成的知识。

Mar, 2024

CommVQA: 在交际语境中定位视觉问题回答

当前的视觉问答（VQA）模型倾向于在孤立的图像 - 问题对上进行训练和评估。然而，人们提出的问题取决于他们的信息需求和对图像内容的先前知识。为了评估如何将图像置于自然语境中以形成视觉问题，我们引入了 CommVQA，这个 VQA 数据集包括图像、图像描述、可能出现图像的现实沟通场景（例如旅行网站），以及依赖于场景的后续问题和答案。我们发现，CommVQA 对当前模型构成了挑战。向 VQA 模型提供情境信息可以广泛提高性能，凸显了将系统置于沟通场景中的相关性。

Feb, 2024

ViCor：用大型语言模型桥接视觉理解和常识推理

我们的研究工作探索了预训练的视觉语言模型（VLM）和大型语言模型（LLM）在视觉常识推理（VCR）中的协同能力。我们将 VCR 问题分为视觉常识理解（VCU）和视觉常识推断（VCI）两个方面。在 VCU 方面，预训练的 VLM 展示出强大的跨数据集泛化能力。然而，在 VCI 方面，VLM 面临困难。我们提出了名为 ViCor 的协作方法，在 VCI 中通过 LLM 主动引导 VLM 集中关注和收集相关的视觉元素来支持潜在的常识推断。我们的方法在两个 VCR 基准数据集上得到了评估，并且在不需要领域内监督微调的所有其他方法之上取得了优越的表现。

Oct, 2023