本文提出了一种新的强化学习算法 APO,该算法利用 max-min 博弈理论减轻数据扩充带来的过拟合问题,提高了学习策略的效率,并对几个 DeepMind 控制机器人环境的高维度和噪声状态设置进行了评估。实证结果表明,我们的方法 APO 在性能上始终优于最先进的基于策略的 PPO 代理,并且与最先进的数据增强,RAD 和基于正式的 DRAC 等方法进行了比较。
Apr, 2023
我们提出通过在线调整来弥补模仿学习中的失败,我们的方法将预训练策略的动作建议与专家记录的相关经验相结合,通过适应的行为更好地模仿专家策略,实验表明适应的智能体表现比纯模仿学习的对应体更好,特别是在基础策略灾难性失败时,适应的智能体仍然能够实现合理的性能。
Jun, 2024
本文通过比较三种方法,探究如何寻找适当的数据增强方式,并结合两个新的正则化项,以理论上的方式为某些 actor-critic 算法的数据增广提供支持,最终在 Procgen 基准测试上展示了在相对于标准 RL 算法提高了~40% 的测试性能。我们的代理优于其他针对 RL 中泛化改进的基线。此外,我们还展示了我们的代理学习出更能适应环境变化的策略和表示,包括不保留背景信息的变化。
Jun, 2020
本文提出了一种基于生成式反向动力学模型的行为克隆方法以解决自我学习表现不佳的问题,利用模型产生短期想象轨迹进行训练,提高了模型的健壮性和适应性。
Oct, 2022
本文介绍了如何将行为克隆与人在环环学习相结合,利用一种新方法在模拟中允许专家随时控制代理并提供最优解,从而解决了行为克隆中的一些缺陷,提高了训练效率和降低了所需资源,实验表明该方法在定量评估和人类相似性方面都具有更好的效果。
Jan, 2022
本文探讨在模拟环境中学习机器人操作策略的方法,通过使用深度图像数据的随机扩增策略,实现了在非真实场景下学习并获得了验证。
Mar, 2019
使用预训练的基础模型的潜在空间索引演示数据集,通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题,实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型,能在 Minecraft 环境中以人类样式表现出智能行为。
Jan, 2024
通过数据增强来解决在学习高维视觉观察中适应新环境及复杂视觉变化所面临的泛化问题,提出了学习控制感知掩码的方法以及通过预先训练的强化学习专家将知识传输给学生视觉动作策略来解决训练不稳定性问题。
我们通过对专家演示进行政策学习来解决没有奖励函数的问题,并提出了将模仿学习视为微调问题的方法,通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能,只需要 10 个演示且没有奖励标签,同时解决了复杂的灵巧操作任务。
May, 2024
提出了一种新的基于模型的框架 —— 离线模仿学习与自适应反向增强(SRA),该框架通过从离线演示构建反向动态模型,以自适应的方式生成导致专家观察到的状态的轨迹,并使用后续的强化学习方法从增强的轨迹中学习,将从专家未观察到的状态转移到专家观察到的状态。实证结果表明,该方法能够有效减轻协变量漖移,并在离线模仿学习基准上达到最先进的性能。