VisualCOMET：推理静态图像的动态上下文

ECCVApr, 2020

VisualCOMET：推理静态图像的动态上下文

VisualCOMET: Reasoning about the Dynamic Context of a Still Image

Jae Sung Park, Chandra Bhagavatula, Roozbeh Mottaghi, Ali Farhadi, Yejin Choi

TL;DR提出了一种名为 VisualComet 的框架，用于预测图片中可能发生的事件、人物意图和接下来可能发生的事件，并建立了一个包含超过 1.4 百万个文本描述和各种图像的广泛集合。此外，研究者在图片和文本之间建立了紧密的链接，以确保在视觉和文本上的共同推理取得了强劲的基础表现，证明了集成是关键。

Abstract

Even from a single frame of a still image, people can reason about the dynamic story of the image before, after, and beyond the frame. For example, given an image of a man struggling to stay afloat in water, we can reason that the man fell into the water sometime in the past, the intent of that man at the moment is to stay alive, and he will need help in the

visual commonsense reasoning visualcomet visual commonsense graphs person-grounding integration

发现论文，激发创造

基于视觉常识的人类中心 grounding 中的人物查找

该研究介绍了一个新的人类常识任务，人类中心共识基础，并创建了一个数据集 HumanCog，并开发了一种强有力的基线方法，强调了丰富的视觉常识和多模式集成的重要性，并提出了未来的工作方向。

Dec, 2022

带有循环记忆的段落级通识理解 Transformer

我们提出了一种任务，即基于语篇的通识推理，在保持与叙述其余部分的一致性的同时，在预定义的维度上生成常识推断。使用可用的句级注释，我们有效且自动地构建了一个远程监督语料库，使用该语料库，我们训练了 PARA-COMET，这是一种基于语篇的模型，它捕获关于先前世界知识的语义知识和涉及如何将当前事件与叙述中先前和未来事件相关联的情节知识。我们的结果表明，PARA-COMET 在生成既连贯又新颖的推断方面优于句级基准。

Oct, 2020

从识别到认知：视觉常识推理

该研究论文旨在推进计算机视觉模型的视觉常识推理能力。研究者针对这一目标，提出一项包含 290k 多选题的新数据集 VCR，并使用基于对抗匹配的方法进行添加问题。通过引入新的推理引擎 - Recognition to Cognition 网络（R2C），该文章对计算机视觉模型的性能进行了分析，并提出未来研究的方向。

Nov, 2018

超越语言：从图片中学习常识进行推理

本文提出了一种从图像中学习常识的新方法，利用双模态序列到序列模型进行场景布局生成任务，并在通感问题回答和代词消解领域实验中证明了新方法的有效性。

Oct, 2020

在视觉对话中运用多结构常识知识进行推理

本文提出了一种基于多结构的常识知识的推理模型，通过句子级事实和图级事实表示外部知识，通过图形交互和变压器融合捕获相关的知识并将其融入视觉和语义特征中，已在 VisDial v1.0 和 VisDialCK 数据集上取得了有效的性能优于比较方法。

Apr, 2022

DiffuCOMET：上下文常识知识扩散

利用扩散学习重建叙事背景和相关常识之间的内在语义联系，我们开发了一系列以 DiffuCOMET 为基础的知识模型，为推断上下文相关和多样性常识提供了一种解决方案。我们的方法逐步优化了与叙事相关的常识事实表示，产生了与输入上下文相关且多样化的常识推论。在 ComFact 和 WebNLG + 两个基准测试上的结果表明，DiffuCOMET 产生的常识在常识多样性、上下文相关性和与已知参考文献的一致性方面的平衡优于基准知识模型。

Feb, 2024

SCO-VIST: 基于社交互动常识知识的视觉叙事

SCO-VIST 框架使用图表示形式，结合语义和基于发生的边权重，通过 Floyd-Warshall 算法生成视觉叙事。在多个指标上，该框架在视觉根植性、连贯性、多样性和人性上优于其他模型，经过自动和人工评估。

Feb, 2024

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024

VLC-BERT：上下文化通识知识视觉问答

本研究提出了 VLC-BERT 模型，该模型针对需要常识推理的视觉问答任务，通过使用预训练的 Commonsense Transformer（COMET）模型产生、选择和编码外部常识知识，结合视觉和文本线索，超越了使用静态知识库的现有模型.

Oct, 2022

基于照片的自然语言推理语料库

本文介绍了一个新数据集，包含 107292 个英语句子与网络照片的组合，任务是确定自然语言字幕是否与一对照片相符。数据要求包括数量、比较和关系等组成性联合推理的定性分析以及强大的视觉推理方法的评估。

Nov, 2018