Jun, 2024

ARDuP:Active Region 视频扩散技术的通用策略

TL;DR基于文本定义目标的视频规划器生成未来帧以可视化计划行动,从而导出控制行动,本文介绍了一种名为 ARDuP (Active Region Video Diffusion for Universal Policies)的视频策略学习框架,通过强调生成活动区域来增强条件策略对任务执行所需的交互区域的关注,在视频规划中结合活动区域的特性与潜在扩散模型,并在反向动态建模过程中利用潜在表示进行直接解码的行动,通过利用视频中的运动线索自动发现活动区域,本方法消除了对活动区域的手动注释需求,通过在模拟器 CLIPort 和真实世界数据集 BridgeData v2 上进行大量实验证明了 ARDuP 的有效性,取得了显著的成功率改善,并生成令人信服的逼真视频规划。