May, 2024

通过大型语言模型从动作中学习对象状态

TL;DR通过使用大型语言模型,我们提出了一种从指导视频中的动作信息中提取物体状态信息的方法,并使用所生成的伪标签对模型进行训练,从而明确从动作中提取出物体状态信息的有效性。