本文提出了一种新的过程规划公式,通过贝叶斯推论和基于模型的模仿学习,建模人类行为,从而在实际的指导视频中实现了它,证明了我们的方法可以实现达到指定目标的最先进性能的同时,学习到的上下文信息以潜在空间的形式表现出有趣的特征。
Oct, 2021
本文提出了一种基于 transformer 和概率生成模块的弱监督方法,用于学习从自然语言指令中提取过程规划,避免了对训练视频进行昂贵的时序视频标注,并在三个数据集上的对比实验证明其优于之前的全监督模型。
May, 2022
使用人类决策过程的教学视频培训模型,学习从视频中直接生成可规划结构的状态和行动空间,并使用 Planning Transformer 解决了长期决策的复杂性问题,并通过实验证明了其在达到目标方面的良好性能表现。
Sep, 2021
研究了指导视频中的过程规划问题,使用扩散模型进行分布拟合,从中采样操作序列达到规划目标,并在三个数据集上验证了其优于当前方法的性能表现。
Mar, 2023
通过跳过不确定的节点和边,在行动链中以简化行动空间的方式,我们的模型能够探索行动序列中各种可靠的子关系,并在 CrossTask 和 COIN 两个评估数据集上达到了最先进的性能。
Oct, 2023
本研究针对从带有文本监督的指令视频中进行过程规划的任务,提出了一种基于事件引导的范式,通过从观察到的状态中推断事件并基于状态和预测的事件规划行动。在提出的模型中,还采用了遮盖和预测方法进行关系挖掘,通过将事件信息编码到顺序建模过程中来支持过程规划。实验证明了我们提出的模型的有效性。
Aug, 2023
该研究探讨了代理程序在构建逻辑动作步骤序列方面的能力,从而组装战略性的过程计划。利用来自训练数据的程序化知识图,我们提出了一种名为 KEPP 的新型知识增强程序规划系统,该系统在各种复杂度设置下的实验评估结果表明,KEPP 取得了卓越的、最新的结果,同时只需要很少的监督。
Mar, 2024
本文介绍了在教学视频中的过程规划,其中关键问题包括自适应程序、时间关系、注释成本,并提出了检索增强规划器 (RAP) 模型来解决这些挑战。RAP 通过自适应地确定动作的结论、建立外部内存模块以明确从训练视频中检索最相关的状态 - 动作对,并利用弱监督学习扩大训练数据集,生成动作步骤的伪标签。在 CrossTask 和 COIN 基准测试上的实验证明了 RAP 在自适应过程规划方面的优越性,将其确立为自适应过程规划的强基准解决方案。
我们研究了教学视频中的过程规划问题,旨在根据部分视觉观察结果制定目标导向的行动步骤序列,通过跟踪状态变化建立更有结构化的状态空间。通过在步骤表示中利用通识知识并通过语言描述对齐状态观察,我们提出的 SCHEMA 模型在 CrossTask、COIN 和 NIV 基准数据集上实验,取得了最先进的性能,并得到了可解释的可视化结果。
本文提出了使用长视频分类和描述学习人类共识过程结构的方法,利用 YouCook2 数据集和基于段的递归网络生成过程段。该方法可用于向其他任务提供预处理,如密集视频字幕和事件解析,并在过程分割中优于竞争基线。
Mar, 2017