- 离线强化学习中创建信任区域的扩散策略
离线强化学习中的扩散信任 Q 学习方法(DTQL)通过引入扩散模型作为一个强大和有表达力的策略类,消除了训练和推理过程中迭代去噪采样的需要,大大提高了计算效率,并在多个基准任务中展现了优越的性能和算法特性。
- 扩散策略攻击者:针对基于扩散的策略的制造对抗攻击
基于扩散模型的行为克隆,探讨扩扩散策略的安全问题,引入对抗攻击场景,构建 DP-Attacker 算法套件,对各种攻击场景下的预先训练的扩散策略进行实验攻击,证明 DP-Attacker 具有显著降低 DP 成功率的能力。
- ADR-BC: 敌对密度加权回归行为克隆
提出 ADR-BC,通过增强密度支持的行为克隆方法,优化策略并避免多步强化学习中的累积偏差,实验证明其在多个任务上均明显优于目前 state-of-the-art 的泛化 IL 基准 CEIL,并且在 Adroit 和 Kitchen 领域 - MaskFuser: 联合多模态符号化的遮罩融合用于端到端自动驾驶
提出了一种名为 MaskFuser 的多模态驾驶框架,在统一的语义特征空间中将各种模态标记化,并为进一步行为克隆提供联合表示。通过引入跨模态的掩蔽自编码器训练,增强了融合表示。MaskFuser 在伤害感知输入下提高了驾驶稳定性,并在驾驶得 - 机器人空气曲棍球:用强化学习进行机器人学习的操纵测试平台
机器人空中曲棍球动态交互的强化学习实验平台,包括从简单的任务到复杂的任务,支持模拟到真实世界的迁移,并使用演示数据评估了行为克隆、离线强化学习和从零开始的强化学习。
- SAFE-GIL:安全引导的模仿学习
SAFE-GIL 通过对专家进行对抗性干扰来引导数据采集,从而解决行为克隆方法的 “错误混合问题”,在安全关键状态下更接近专家行为,并在低数据情况下提高任务成功率和安全性。
- 自主驾驶路径规划的残差链预测
在自动驾驶系统领域,路径规划算法的改进对于车辆在动态环境中尤其是复杂城市场景中的导航至关重要。本研究引入了新概念的 Residual Chain Loss,通过动态调整损失计算过程来增强预测路径点的时间依赖性和准确性,显著提高模型性能,并且 - 从示范中学习视觉四足机器人的运动和操作技能
四足机器人在人类环境中的逐渐整合以及与实际场景中物体的互动通过将运动 - 操纵过程分解为低层次的强化学习和高层次的行为克隆,我们使得四足机器人能够仅使用其腿部完成现实世界的操纵任务,并通过模拟和实际实验验证了我们的方法。
- SOTOPIA-$π$: 社交智能语言代理的交互学习
通过行为克隆和自我强化训练,我们提出了交互学习方法 SOTOPIA-π,进一步提高语言代理的社交智能。我们展示了该训练方法使得一个 7B LLM 达到了专家模型(基于 GPT-4 的代理)的社交目标完成能力,同时提高了语言代理的安全性并在 - 反向软 Q 学习用于离线模仿与次优示范
离线模仿学习主要通过有限的专家演示和较大的次优演示来提出一种基于反向软 Q 学习的新方法,通过添加正则化项来对齐学习得到的回报函数,从而有效解决离线模仿学习中的过拟合问题和训练向次优策略靠拢的问题。该方法在标准基准测试中明显优于其他离线模仿 - 离线强化学习和模仿学习的引导式数据增强
通过人工引导的数据增强 (GuDA) 框架实现学习从示范中,以通过离线强化学习和行为克隆算法提取策略,有效地利用少量次优演示来提升机器人控制策略的学习性能。
- SGD 噪声的蝴蝶效应:行为克隆和自回归中的误差放大
这项研究探讨了使用深度神经网络进行行为克隆的训练不稳定性。我们观察到,尽管对行为克隆损失几乎没有影响,但训练过程中对策略网络进行的小批量随机梯度下降更新导致长时间跨度奖励出现尖锐振荡。我们通过实验证明了这些振荡的统计和计算原因,并发现它们源 - 多模态大型语言模型用于视觉导航
通过简单的文本提示、当前观察和历史收集模型,我们的方法在视觉导航中对大型语言模型进行了精细调优,训练模型使用了来自 Habitat-Matterport 3D 数据集(HM3D)的人类示范和碰撞信号,实验结果表明我们的方法优于最先进的行为克 - 记忆一致的神经网络用于模仿学习
模仿学习通过利用专家演示大大简化了策略合成,我们重新考虑了行为克隆样本便捷地训练策略,设计了对抗错误现象的模型类,使用 MCNN 策略在 9 个模仿学习任务上得到了显著的性能提升。
- 超越均匀采样:利用不平衡数据集的离线强化学习
离线策略学习旨在利用现有的轨迹数据集来学习决策策略,而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块,从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明,在 72 个不平衡数 - 一份 ACT 戏剧表演:单一演示行为克隆与行动分块变压器
使用行为克隆从单个人类示范中学习任务,通过使用线性变换增强单个示范来生成一系列初始条件广泛变化的轨迹,从而成功训练行为克隆智能体完成三个方块操作任务,并通过在推断期间将行动预测的标准差纳入集成方法中,使方法对环境中的意外变化更加稳健,从而实 - 去交织模仿学习的初始状态干预
模仿学习中的因果混淆问题及其遮蔽算法的应用。
- 基于时空热力图的模仿学习:NuPlan 挑战赛第二名方案
本文介绍了在 NuPlan 2023 挑战赛中我们第二名的解决方案,采用以行为克隆为基础的学习方式,通过热力图表示预测未来的多模态状态,并使用轨迹精化技术确保最终的安全,实验结果表明我们的方法有效地平衡了车辆的进展和安全性,产生了安全舒适的 - WWWAR2-D2 无需实体机器人训练机器人
AR2-D2 是一种不需要经过专门训练的人,也不需要在数据采集期间使用真实机器人的演示数据收集系统,可用于训练真实机器人的行为克隆代理,并且与真实机器人演示数据训练同样有效。
- SwiftSage:一种具备快、慢思维能力的生成性代理,用于复杂交互任务
SwiftSage 是一个受到人类认知双过程理论启发的新型代理框架,旨在通过行为克隆和提示大型语言模型的优势来提高任务完成性能,它在 30 项科学世界基准任务中显著优于其他方法。