常见的非常见：场景识别中的语义稀疏性

Dec, 2016

常见的非常见：场景识别中的语义稀疏性

Commonly Uncommon: Semantic Sparsity in Situation Recognition

Mark Yatskar, Vicente Ordonez, Luke Zettlemoyer, Ali Farhadi

TL;DR本研究探讨了图像中产生的有关活动，物体和角色的结构化摘要的名称识别中出现的语义稀疏问题，并提出了一种新的张量组合函数和语义增强技术，以有效地处理这个问题。实验结果表明，这种方法可使模型在模型的表现上相对提高2.11％到4.40％，同时在增加语义增强技术之后，这种方法还可以进一步提高6.23％到9.57％。

Abstract

semantic sparsity is a common challenge in structured visual classification problems; when the output space is complex, the vast majority of the possible predictions are rarely, if ever, seen in the training set.

发现论文，激发创造

用于情境识别的循环模型

本文提出使用递归神经网络模型来预测结构化的“图像情境”，进一步研究了行为和名词实体在动作相关的语义角色中的作用，并且创新性地使用了专门的动作预测网络，以及一个 RNN 来进行名词预测。相比于之前使用条件随机场的工作，我们的系统在最近的imSitu数据集上获得了最佳的准确性表现，并且将从情景预测中学习到的特征转移到图像字幕生成任务中，以便更准确地描述人-物互动。

Mar, 2017

利用图神经网络进行情境识别

通过基于图神经网络的模型，我们能够有效捕捉语义角色之间的联合依赖关系，从而在预测图像中最显著的动词和填充其语义角色时取得显著提升，实验证明我们的方法在情境识别中表现优异。

Aug, 2017

从邻居学习：从稀疏注释中学习多模态映射

该文章研究了如何通过邻居的注释来提高判别模型的性能，并应用于图像和语言领域的多个问题中，通过实验结果显示了该方法可以提高输出多样性和模型准确性。

Jun, 2018

基于场景的情境识别

本文提出了Grounded Situation Recognition（GSR）这一任务，研究如何利用图像来生成结构化的语义摘要，重点关注图像中的活动、相关主体的角色和范围、以及实例的语义示踪；通过在Situation With Groundings（SWiG）数据集上测试，在端到端训练中联合预测场景和示踪方面，相对独立训练的性能提高了8%到32%之间的相对增益。

Mar, 2020

视觉语义角色标注用于视频理解

使用视觉语义角色标注的新框架，将视频表示为相关事件的集合，引入VidSitu基准进行语义角色标注，通过事件-事件关系连接事件，研究了视频语义角色标注的挑战性任务，并对数据集进行了全面分析，与其他公开可用的视频理解基准进行了比较，评估了视频识别模型。

Apr, 2021

SMURF：基于典型性分析的字幕评估语义和语言理解融合

通过信息理论中的“典型性”方法，我们提出了一种新的评估框架来解决视觉字幕生成中缺乏明确答案的问题，并使用该框架开发了语义比较和流畅度评估指标，通过这些指标展示了更高水平的语义和流畅度的区别以及与人类判断的相关性，从而实现了与其他基于规则的方法不同的最先进的模型评估。

Jun, 2021

重新思考基于场景的情境识别的双阶段框架

该论文提出了一种新的包含粗粒度到细粒度动词模型和基于Transformer的名词模型的SituFormer方法，用于地面情境识别，其全面探索了角色之间的统计依赖关系，相比其他方法在各种指标下具有显著性提升，代码公开可用。

Dec, 2021

GSRFormer: 基于交替语义注意力精炼的基础情境识别转换器

本文提出了一种基于双向关系的新的两阶段框架，旨在利用动词和语义角色之间的双向关系，生成结构化的图像语义摘要，实现类人事件理解，实验结果表明该框架在挑战性的SWiG基准测试中优于其他最先进的方法。

Aug, 2022

ClipSitu：在情境识别中有效地利用CLIP进行条件预测

本文利用CLIP 模型的图像语言描述学习了图像的上下文，在情况识别任务中深度和宽度的多层感知器块可获得显着结果，设计的基于交叉注意力的Transformer模型ClipSitu XTF，在imSitu数据集的语义角色标注任务上的准确率优于最先进的模型14.1％。

Jul, 2023

超越类别：通过语言解释实现零样本情境识别

通过引入 Language EXplainer (LEX) 方法，本文在 SWiG 数据集上验证了预训练的视觉语言模型在零样本场景理解和基于场景的情境识别方面的有效性和互操作性。

Apr, 2024