通过大型语言模型从动作中学习对象状态
本文提出一种自我监督的模型,能够在长视频中联合学习目标物体的状态(例如,空杯子和满杯子)及其相应的状态变化行为(如 “倒咖啡”),并针对噪声数据和未筛选的视频数据分别采用噪声自适应加权模块和新的视频数据集进行监督训练,并在目标动作和物体状态识别方面都实现了相当大的进步。
Mar, 2022
通过引入 Object State-Sensitive Agent (OSSA),该研究探讨了两种方法(模块化模型和整体模型)在生成与物体状态相关的计划任务方面的性能,结果显示整体模型表现更好。
Jun, 2024
本研究探讨了大型语言模型(LLM)在通过语义嵌入生成和提供领域特定信息方面的潜力,并在基于视觉的零样本目标状态分类任务中将 LLM 整合到一种流程中。研究结果表明,使用 LLM 嵌入与通用预训练嵌入相结合,可以显著提高性能,并通过与竞争模型的比较分析展示了所提出方法所达到的最新性能。
Mar, 2024
使用语言模型的长期动作预测方法 (LALM) 在 egocentric vision 中取得了领先地位,通过整合动作识别模型与视觉 - 语言模型,利用过去的事件信息进行动作预测,达到了在不同复杂活动中的泛化能力。
Nov, 2023
该研究提出一个联合模型,通过视频分析自动发现对象状态和相关的操作行为,模型使用判别聚类成本和约束来学习识别、定位对象状态和对它进行操作的动作,并且不需要额外的监督。通过将对象状态发现与操作识别相结合,取得了良好的实验效果。
Feb, 2017
本研究通过使用大规模语言模型(LLM)来解决开放式家庭环境中长期任务规划的问题。我们提出了一种新颖的可扩展状态表示方法,利用 LLM 的上下文理解和历史行为推理能力来持续扩展和更新对象属性。我们的模型在模拟和现实世界的任务规划场景中验证,表明在需要长期跟踪和推理状态的各种任务中,与基准方法相比取得了显著的改进。
Nov, 2023
本文提出了一种基于弱监督学习的人类行为学习方法,通过视频的文字形式来推断其中涉及的行为,并能在没有帧级别标注的情况下学习相关的行为模型;该方法在四个活动数据集上进行了评估,证明了其高效性和竞争力。
Oct, 2016