OSCaR：对象状态字幕和状态变化表示

Feb, 2024

OSCaR：对象状态字幕和状态变化表示

OSCaR: Object State Captioning and State Change Representation

Nguyen Nguyen, Jing Bi, Ali Vosoughi, Yapeng Tian, Pooyan Fazli...

TL;DR通过介绍 Object State Captioning and State Change Representation (OSCaR) 数据集和基准测试，本文旨在解决智能模型在理解和推测物体状态变化方面的挑战，提出了一种新的评估多模态大型语言模型 (MLLMs) 的方法，并表明现有的模型在理解这些变化方面仍需要进一步改进。

Abstract

The capability of intelligent models to extrapolate and comprehend changes in object states is a crucial yet demanding aspect of ai research, particularly through the lens of →

intelligent models ai research human interaction object state captioning state change detection

发现论文，激发创造

视频中学习对象状态变化：一个开放世界的视角

对象状态变化（OSC）对于视频理解至关重要。我们引入了一种新颖的开放世界表述，用于视频 OSC 问题。我们开发了 VidOSC，一种整体学习方法，利用文本和视觉 - 语言模型提供监督信号来消除手动标注 OSC 训练数据的需要，并从对象中抽象出细粒度的共享状态表示来增强泛化性能。此外，我们提出了 HowToChange，这是第一个用于视频 OSC 定位的开放世界基准，与现有最佳基准相比，其标签空间和注释量增加了一个数量级。实验结果证明了我们方法在传统闭世界和开放世界场景中的有效性。

Dec, 2023

预测物体状态的变化

提出了解决图像和视频中物体状态变化的问题的第一种方法，通过集成学习的视觉特征和自然语言特征来预测未来可能发生的物体状态变化，从而增强视频理解系统的预测性能。

May, 2024

利用知識圖譜進行零樣本物體無關狀態分類

我们研究了对象状态分类（OSC）作为一种零样本学习问题。我们提出了第一个不依赖于对象类别的对象无关状态分类方法（OaSC），该方法可以在不依赖于对象类别的知识或估计的情况下推断出某个对象的状态。通过在知识图谱（KGs）中组织和结构化知识，结合视觉信息，我们能够推断出在方法的训练集中未遇到的对象 / 状态对的对象状态。一系列实验研究了所提出的方法在各种设置下的性能，并与用于对象属性分类的现有方法进行了比较。实验结果表明，对象类别的知识并不决定其状态的预测。此外，所提出的 OaSC 方法在所有数据集和基准测试中均显著优于现有方法。

Jul, 2023

从图像集合中学习具有状态、姿势和视点变化的物体不变表示

在学习物体的识别和检索的对象表示中，我们将更常用的其他不变性增加了一个不变性 - 状态不变性 - 通过状态不变性，我们的目标是设计一个具有类似能力的神经架构，以捕捉到物体形状结构变化时的鲁棒性。为了实现这一目标，我们提出了一个新颖的数据集，ObjectsWithStateChange，它捕捉了物体图像中的状态和姿态变化。通过使用所学嵌入空间中每个时期后的相似关系指导训练过程，我们还提出了一种使用课程学习策略，该策略通过比较视觉上相似的对象来增强模型捕捉微细变化物体的辨别特征的能力。我们相信，这种策略可以提高在涉及具有状态变化的微细任务上的性能，不仅在我们的新数据集上，还在其他具有挑战性的多视图数据集上，如 ModelNet40 和 ObjectPI。

Apr, 2024

细节使得不同：物体状态敏感的神经机器人任务规划

通过引入 Object State-Sensitive Agent (OSSA)，该研究探讨了两种方法（模块化模型和整体模型）在生成与物体状态相关的计划任务方面的性能，结果显示整体模型表现更好。

Jun, 2024

RSCaMa：带有状态空间模型的遥感图像变化描述

远程感知图像变化字幕化通过识别多时相遥感图像中的表面变化并用自然语言描述它们，当前的方法通常依赖于编码器 - 解码器结构，并侧重于设计一个复杂的 “颈部” 来处理骨干提取的双时相特征。最近，状态空间模型（SSM），特别是 Mamba，在许多领域展示了出色的性能，这归功于其高效的特征选择建模能力。然而，它们在 RSICC 任务中的潜力尚未被探索。本文将 Mamba 引入到 RSICC 中，并提出了一种名为 RSCaMa（远程感知变化字幕化 Mamba）的新方法。具体而言，我们利用孪生骨干提取双时相特征，然后通过由空间差异引导的 SSM（SD-SSM）和时间逐步旅行的 SSM（TT-SSM）组成的多 CaMa 层进行处理。SD-SSM 利用差异特征来增强变化感知能力，而 TT-SSM 以记号级跨扫描方式促进双时相交互作用。实验证明了 CaMa 层的有效性，并展示出 RSCaMa 的卓越性能以及 Mamba 在 RSICC 任务中的潜力。此外，我们系统地比较了三种语言解码器的效果，包括 Mamba、具有因果关注机制的 GPT 风格解码器以及具有交叉关注机制的 Transformer 解码器。这为未来的 RSICC 研究提供了有价值的见解。代码将可在此链接上找到。

Apr, 2024

通过大型语言模型从动作中学习对象状态

通过使用大型语言模型，我们提出了一种从指导视频中的动作信息中提取物体状态信息的方法，并使用所生成的伪标签对模型进行训练，从而明确从动作中提取出物体状态信息的有效性。

May, 2024

使用多样物体标注的图片字幕生成

本文提出了 Novel Object Captioner (NOC) 模型，利用外部数据源和语义嵌入使模型适用于不在现有图像字幕数据集中出现的数百种物体分类，并表现出对现有罕见分类的能力，自动评估和人类判断均表明，该模型在描述物体方面比之前的工作表现更好。

Jun, 2016

Oscar: 面向视觉语言任务的对象 - 语义对齐预训练模型

本文介绍了一种基于目标检测的图像 - 文本预训练学习方法 Oscar，通过使用在图像中检测到的目标标签作为锚点，显著简化模型中的图像与文本的语义对齐，使其在六个视觉 - 语言理解和生成任务中创造了新的最好成果。

Apr, 2020

大规模的新物体字幕生成

研究了如何从其他数据源中学习视觉概念，并创建了一个大规模的基准来评估新图像说明模型可以从中获得这些视觉概念的能力。

Dec, 2018