Oct, 2022

看、规划、预测:语言引导的视频预测认知规划

TL;DR通过自然语言引导视频预测,我们提出了一种新的视觉预测结构,使得计算机可以通过语言输入来分解高级任务计划,并且使用预先训练好的 transformers 使得模型具有一定的任务泛化能力,实验表明,这种结构相对于不具有任务规划或动作引导的基线模型具有显著优势,并且通过深入研究发现语言嵌入技术对于任务泛化能力的提升非常重要。