Skip-Plan:通过简化的行动空间学习在教学视频中进行程序规划
本文提出 Dual Dynamics Networks(DDN)框架来解决学习结构化的、可规划的状态和动作空间的技术挑战,以应对复杂任务规划的问题;DDN 框架在真实世界的教学视频上展示了更好的规划性能。
Jul, 2019
本文提出了一种基于 transformer 和概率生成模块的弱监督方法,用于学习从自然语言指令中提取过程规划,避免了对训练视频进行昂贵的时序视频标注,并在三个数据集上的对比实验证明其优于之前的全监督模型。
May, 2022
本文介绍了在教学视频中的过程规划,其中关键问题包括自适应程序、时间关系、注释成本,并提出了检索增强规划器 (RAP) 模型来解决这些挑战。RAP 通过自适应地确定动作的结论、建立外部内存模块以明确从训练视频中检索最相关的状态 - 动作对,并利用弱监督学习扩大训练数据集,生成动作步骤的伪标签。在 CrossTask 和 COIN 基准测试上的实验证明了 RAP 在自适应过程规划方面的优越性,将其确立为自适应过程规划的强基准解决方案。
Mar, 2024
我们研究了教学视频中的过程规划问题,旨在根据部分视觉观察结果制定目标导向的行动步骤序列,通过跟踪状态变化建立更有结构化的状态空间。通过在步骤表示中利用通识知识并通过语言描述对齐状态观察,我们提出的 SCHEMA 模型在 CrossTask、COIN 和 NIV 基准数据集上实验,取得了最先进的性能,并得到了可解释的可视化结果。
Mar, 2024
本文提出了一种新的过程规划公式,通过贝叶斯推论和基于模型的模仿学习,建模人类行为,从而在实际的指导视频中实现了它,证明了我们的方法可以实现达到指定目标的最先进性能的同时,学习到的上下文信息以潜在空间的形式表现出有趣的特征。
Oct, 2021
本研究针对从带有文本监督的指令视频中进行过程规划的任务,提出了一种基于事件引导的范式,通过从观察到的状态中推断事件并基于状态和预测的事件规划行动。在提出的模型中,还采用了遮盖和预测方法进行关系挖掘,通过将事件信息编码到顺序建模过程中来支持过程规划。实验证明了我们提出的模型的有效性。
Aug, 2023
我们提出了一个新颖的扩散模型 ActionDiffusion,用于指导教学视频中的过程规划,它是第一个在扩散模型中考虑动作之间的时间依赖关系,与现有方法相比,利用了动作按特定顺序执行的丰富信息内容。我们的方法通过将动作信息投影到噪声空间实现了对动作的学习和扩散过程中的去噪,其中,在噪声添加阶段通过在噪声掩码中添加动作嵌入,并通过在噪声预测网络中引入注意机制来学习不同动作步骤之间的相关性。我们在三个教学视频基准数据集(CrossTask、Coin 和 NIV)上进行了广泛的实验,并展示了我们的方法在 CrossTask 和 NIV 的所有指标以及 Coin 数据集上的除准确性以外的所有指标上胜过了以前的最先进方法。我们的研究结果表明,通过将动作嵌入添加到噪声掩码中,扩散模型能够更好地学习动作的时间依赖关系,并提高了过程规划的性能。
Mar, 2024
使用人类决策过程的教学视频培训模型,学习从视频中直接生成可规划结构的状态和行动空间,并使用 Planning Transformer 解决了长期决策的复杂性问题,并通过实验证明了其在达到目标方面的良好性能表现。
Sep, 2021
该研究探讨了代理程序在构建逻辑动作步骤序列方面的能力,从而组装战略性的过程计划。利用来自训练数据的程序化知识图,我们提出了一种名为 KEPP 的新型知识增强程序规划系统,该系统在各种复杂度设置下的实验评估结果表明,KEPP 取得了卓越的、最新的结果,同时只需要很少的监督。
Mar, 2024
Skipper 是一个受人类有意识规划启发的基于模型的强化学习代理,利用空间和时间抽象来在新情境中推广学到的技能,通过自动将任务分解为更小、更可管理的子任务来实现稀疏决策,并将计算集中在环境相关的部分。与现有的基于层次规划的方法相比,基于图的高层代理问题的定义和端到端学习的顶点和边的学习确保了性能保证,理论分析确定了我们的方法在何种情况下有帮助。通过以泛化为重点的实验验证,Skipper 在零样本泛化方面具有显著优势。
Sep, 2023