OSCaR:对象状态字幕和状态变化表示
对象状态变化(OSC)对于视频理解至关重要。我们引入了一种新颖的开放世界表述,用于视频 OSC 问题。我们开发了 VidOSC,一种整体学习方法,利用文本和视觉 - 语言模型提供监督信号来消除手动标注 OSC 训练数据的需要,并从对象中抽象出细粒度的共享状态表示来增强泛化性能。此外,我们提出了 HowToChange,这是第一个用于视频 OSC 定位的开放世界基准,与现有最佳基准相比,其标签空间和注释量增加了一个数量级。实验结果证明了我们方法在传统闭世界和开放世界场景中的有效性。
Dec, 2023
我们研究了对象状态分类(OSC)作为一种零样本学习问题。我们提出了第一个不依赖于对象类别的对象无关状态分类方法(OaSC),该方法可以在不依赖于对象类别的知识或估计的情况下推断出某个对象的状态。通过在知识图谱(KGs)中组织和结构化知识,结合视觉信息,我们能够推断出在方法的训练集中未遇到的对象 / 状态对的对象状态。一系列实验研究了所提出的方法在各种设置下的性能,并与用于对象属性分类的现有方法进行了比较。实验结果表明,对象类别的知识并不决定其状态的预测。此外,所提出的 OaSC 方法在所有数据集和基准测试中均显著优于现有方法。
Jul, 2023
在学习物体的识别和检索的对象表示中,我们将更常用的其他不变性增加了一个不变性 - 状态不变性 - 通过状态不变性,我们的目标是设计一个具有类似能力的神经架构,以捕捉到物体形状结构变化时的鲁棒性。为了实现这一目标,我们提出了一个新颖的数据集,ObjectsWithStateChange,它捕捉了物体图像中的状态和姿态变化。通过使用所学嵌入空间中每个时期后的相似关系指导训练过程,我们还提出了一种使用课程学习策略,该策略通过比较视觉上相似的对象来增强模型捕捉微细变化物体的辨别特征的能力。我们相信,这种策略可以提高在涉及具有状态变化的微细任务上的性能,不仅在我们的新数据集上,还在其他具有挑战性的多视图数据集上,如 ModelNet40 和 ObjectPI。
Apr, 2024
通过引入 Object State-Sensitive Agent (OSSA),该研究探讨了两种方法(模块化模型和整体模型)在生成与物体状态相关的计划任务方面的性能,结果显示整体模型表现更好。
Jun, 2024
远程感知图像变化字幕化通过识别多时相遥感图像中的表面变化并用自然语言描述它们,当前的方法通常依赖于编码器 - 解码器结构,并侧重于设计一个复杂的 “颈部” 来处理骨干提取的双时相特征。最近,状态空间模型(SSM),特别是 Mamba,在许多领域展示了出色的性能,这归功于其高效的特征选择建模能力。然而,它们在 RSICC 任务中的潜力尚未被探索。本文将 Mamba 引入到 RSICC 中,并提出了一种名为 RSCaMa(远程感知变化字幕化 Mamba)的新方法。具体而言,我们利用孪生骨干提取双时相特征,然后通过由空间差异引导的 SSM(SD-SSM)和时间逐步旅行的 SSM(TT-SSM)组成的多 CaMa 层进行处理。SD-SSM 利用差异特征来增强变化感知能力,而 TT-SSM 以记号级跨扫描方式促进双时相交互作用。实验证明了 CaMa 层的有效性,并展示出 RSCaMa 的卓越性能以及 Mamba 在 RSICC 任务中的潜力。此外,我们系统地比较了三种语言解码器的效果,包括 Mamba、具有因果关注机制的 GPT 风格解码器以及具有交叉关注机制的 Transformer 解码器。这为未来的 RSICC 研究提供了有价值的见解。代码将可在此链接上找到。
Apr, 2024
通过使用大型语言模型,我们提出了一种从指导视频中的动作信息中提取物体状态信息的方法,并使用所生成的伪标签对模型进行训练,从而明确从动作中提取出物体状态信息的有效性。
May, 2024
本文提出了 Novel Object Captioner (NOC) 模型,利用外部数据源和语义嵌入使模型适用于不在现有图像字幕数据集中出现的数百种物体分类,并表现出对现有罕见分类的能力,自动评估和人类判断均表明,该模型在描述物体方面比之前的工作表现更好。
Jun, 2016
本文介绍了一种基于目标检测的图像 - 文本预训练学习方法 Oscar,通过使用在图像中检测到的目标标签作为锚点,显著简化模型中的图像与文本的语义对齐,使其在六个视觉 - 语言理解和生成任务中创造了新的最好成果。
Apr, 2020