ClipSitu：在情境识别中有效地利用CLIP进行条件预测

Jul, 2023

ClipSitu：在情境识别中有效地利用CLIP进行条件预测

ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in Situation Recognition

Debaditya Roy, Dhruv Verma, Basura Fernando

TL;DR本文利用CLIP 模型的图像语言描述学习了图像的上下文，在情况识别任务中深度和宽度的多层感知器块可获得显着结果，设计的基于交叉注意力的Transformer模型ClipSitu XTF，在imSitu数据集的语义角色标注任务上的准确率优于最先进的模型14.1％。

Abstract

situation recognition is the task of generating a structured summary of what is happening in an image using an activity verb and the semantic roles played by actors and objects. In this task, the same activity verb can describe a diverse set of situations as well as the same actor or o

发现论文，激发创造

视觉语义角色标记

本文介绍了视觉语义角色标注的问题，即在给定图像的情况下，我们希望检测人们进行的动作并定位交互对象，为了实现这个目标，我们注释了一组数据集，并提供了一组基准算法来解决这个问题，并分析了错误模式，为未来的工作提供了方向。

May, 2015

常见的非常见：场景识别中的语义稀疏性

本研究探讨了图像中产生的有关活动，物体和角色的结构化摘要的名称识别中出现的语义稀疏问题，并提出了一种新的张量组合函数和语义增强技术，以有效地处理这个问题。实验结果表明，这种方法可使模型在模型的表现上相对提高2.11％到4.40％，同时在增加语义增强技术之后，这种方法还可以进一步提高6.23％到9.57％。

Dec, 2016

用于情境识别的循环模型

本文提出使用递归神经网络模型来预测结构化的“图像情境”，进一步研究了行为和名词实体在动作相关的语义角色中的作用，并且创新性地使用了专门的动作预测网络，以及一个 RNN 来进行名词预测。相比于之前使用条件随机场的工作，我们的系统在最近的imSitu数据集上获得了最佳的准确性表现，并且将从情景预测中学习到的特征转移到图像字幕生成任务中，以便更准确地描述人-物互动。

Mar, 2017

视觉语义角色标注用于视频理解

使用视觉语义角色标注的新框架，将视频表示为相关事件的集合，引入VidSitu基准进行语义角色标注，通过事件-事件关系连接事件，研究了视频语义角色标注的挑战性任务，并对数据集进行了全面分析，与其他公开可用的视频理解基准进行了比较，评估了视频识别模型。

Apr, 2021

重新思考基于场景的情境识别的双阶段框架

该论文提出了一种新的包含粗粒度到细粒度动词模型和基于Transformer的名词模型的SituFormer方法，用于地面情境识别，其全面探索了角色之间的统计依赖关系，相比其他方法在各种指标下具有显著性提升，代码公开可用。

Dec, 2021

GSRFormer: 基于交替语义注意力精炼的基础情境识别转换器

本文提出了一种基于双向关系的新的两阶段框架，旨在利用动词和语义角色之间的双向关系，生成结构化的图像语义摘要，实现类人事件理解，实验结果表明该框架在挑战性的SWiG基准测试中优于其他最先进的方法。

Aug, 2022

FiGCLIP: 细粒度CLIP适应通过密集标注视频

通过基于 VidSitu 数据集的细节导向字幕和层级损失，我们改进了 contrastive language image pretraining (CLIP) 模型，提高了其对细粒度和句法的理解能力，并在不同任务中取得了稳定的改进。

Jan, 2024

利用时间语境进行视频动作识别

TC-CLIP是一种改进的视觉语言模型，通过引入时间上下文信息和制造上下文令牌来实现视频理解和行为识别的效果提升。

Apr, 2024

超越类别：通过语言解释实现零样本情境识别

通过引入 Language EXplainer (LEX) 方法，本文在 SWiG 数据集上验证了预训练的视觉语言模型在零样本场景理解和基于场景的情境识别方面的有效性和互操作性。

Apr, 2024

从CLIP中挖掘开放语义：一种关系转换视角的少样本学习方法

通过挖掘开放语义作为锚点，并采用转换器模块进行从图像-锚点关系到图像-目标关系的关系转换，我们的方法在少样本分类设置中表现出色。

Jun, 2024