通过大型语言模型从动作中学习对象状态

May, 2024

通过大型语言模型从动作中学习对象状态

Learning Object States from Actions via Large Language Models

Masatoshi Tateno, Takuma Yagi, Ryosuke Furuta, Yoichi Sato

TL;DR通过使用大型语言模型，我们提出了一种从指导视频中的动作信息中提取物体状态信息的方法，并使用所生成的伪标签对模型进行训练，从而明确从动作中提取出物体状态信息的有效性。

Abstract

temporally localizing the presence of object states in videos is crucial in understanding human activities beyond actions and objects. This task has suffered from a lack of training data due to →

temporally localizing object states large language models instructional videos pseudo-labels

发现论文，激发创造

从未修剪的网络视频中学习对象状态和状态修改动作寻找变化

本文提出一种自我监督的模型，能够在长视频中联合学习目标物体的状态（例如，空杯子和满杯子）及其相应的状态变化行为（如 “倒咖啡”），并针对噪声数据和未筛选的视频数据分别采用噪声自适应加权模块和新的视频数据集进行监督训练，并在目标动作和物体状态识别方面都实现了相当大的进步。

Mar, 2022

细节使得不同：物体状态敏感的神经机器人任务规划

通过引入 Object State-Sensitive Agent (OSSA)，该研究探讨了两种方法（模块化模型和整体模型）在生成与物体状态相关的计划任务方面的性能，结果显示整体模型表现更好。

Jun, 2024

将大型语言模型中的领域特定内容与知识图谱融合，以增强零样本目标状态分类

本研究探讨了大型语言模型（LLM）在通过语义嵌入生成和提供领域特定信息方面的潜力，并在基于视觉的零样本目标状态分类任务中将 LLM 整合到一种流程中。研究结果表明，使用 LLM 嵌入与通用预训练嵌入相结合，可以显著提高性能，并通过与竞争模型的比较分析展示了所提出方法所达到的最新性能。

Mar, 2024

学习多模态环境中物理动作的影响

通过加入图像和文本等多种形式的感官信息以及使用对象的潜在表示对 LLM 进行扩展，以更好地预测动作结果，进而推广并学习物理常识推理。

Jan, 2023

LALM：基于语言模型的长期行动预测

使用语言模型的长期动作预测方法 (LALM) 在 egocentric vision 中取得了领先地位，通过整合动作识别模型与视觉 - 语言模型，利用过去的事件信息进行动作预测，达到了在不同复杂活动中的泛化能力。

Nov, 2023

物体状态和操作行为的联合发现

该研究提出一个联合模型，通过视频分析自动发现对象状态和相关的操作行为，模型使用判别聚类成本和约束来学习识别、定位对象状态和对它进行操作的动作，并且不需要额外的监督。通过将对象状态发现与操作识别相结合，取得了良好的实验效果。

Feb, 2017

LLM-State：开放世界长期规划的可扩展状态表示

本研究通过使用大规模语言模型（LLM）来解决开放式家庭环境中长期任务规划的问题。我们提出了一种新颖的可扩展状态表示方法，利用 LLM 的上下文理解和历史行为推理能力来持续扩展和更新对象属性。我们的模型在模拟和现实世界的任务规划场景中验证，表明在需要长期跟踪和推理状态的各种任务中，与基准方法相比取得了显著的改进。

Nov, 2023

基于语言文本的弱监督动作学习

本文提出了一种基于弱监督学习的人类行为学习方法，通过视频的文字形式来推断其中涉及的行为，并能在没有帧级别标注的情况下学习相关的行为模型；该方法在四个活动数据集上进行了评估，证明了其高效性和竞争力。

Oct, 2016

预测物体状态的变化

提出了解决图像和视频中物体状态变化的问题的第一种方法，通过集成学习的视觉特征和自然语言特征来预测未来可能发生的物体状态变化，从而增强视频理解系统的预测性能。

May, 2024

从状态转换中识别操纵行为

本文研究利用物体状态转换来识别操作行为，提出了一种基于状态转换矩阵的操作识别方法，并在 EPIC 厨房动作识别挑战上取得了良好的结果。

Jun, 2019