- 深度策略的目标条件生成器
研究探讨了目标条件强化学习,使用上下文命令生成生成深度神经网络策略的权重矩阵的目标条件神经网络,并使用超网络和策略嵌入来扩展该方法以生成深层神经网络。通过实验证明,单个生成的策略生成器可以产生在训练过程中观察到的任何回报的策略,并且该算法在 - 通过限制条件风险价值实现安全的强化学习
本文介绍了一种新的增强学习算法 - CVaR-Proximal-Policy-Optimization (CPPO),该算法利用条件风险价值 (CVaR) 进行评估,同时保持其 CVaR 在给定阈值以下,实现了在连续控制任务中对观测和转移扰 - 一种非情节式强化学习的状态分布匹配方法
提出一种名为 MEDAL 的新方法,它将反向策略训练成与提供的演示中的状态分布匹配,以使代理保持接近与任务相关的状态,从而为前向策略提供易于和困难的起始状态,而且在连续控制任务上匹配或优于先前的方法,同时做出比以前更少的假设。
- 针对离线强化学习的高斯混合评论家的重新访问:一种基于样本的方法
本文介绍了一种新的离线强化学习算法(基于混合高斯的 Actor-Critic 方法),该方法成功地解决了 C51 方法中在最小值和最大值以及所使用的区间数上的先验知识的限制,并在众多挑战性的任务上取得了最先进的性能。
- 通过想象近未来来实现安全强化学习
本研究关注应用于现实世界问题中的强化学习算法,提出了一种基于模型的算法可以规避不安全状态并降低安全违规,在连续控制任务中取得相当的回报.
- ICML多样本目标值用于分布式强化学习的探索
本文介绍了一种基于多样本目标值的分布式强化学习算法 E2DC,能够更加准确地学习状态的回报分布,并能够在 UCB 探索的基础上提高性能。作者在一系列连续控制任务上验证了该算法的有效性,并通过可视化和分析展示了学习过程中回报分布的演化。
- 基于模型的强化学习有效调度
本文提出了一个名为 AutoMBPO 的框架,可以自动调度模型驱动策略优化算法(MBPO)中的重要超参数,其中包括真实数据比例。在多项连续控制任务中,由 AutoMBPO 调度的超参数对 MBPO 的性能具有重要的改进作用,并且所找到的真实 - ICLR强化学习中的模仿学习
针对确定性专家,本文使用固定奖励将模仿学习降为强化学习问题,并证实了可以恢复专家的奖励,并将模仿者与专家之间的总变化距离等同于对抗模仿学习,针对连续控制任务进行了实验确认降维的有效性。
- ICML通过预测观察来模仿
本文基于未来观察奖励模型,提出了一种新的依靠观察数据进行模仿学习的方法,可以在连续控制任务中表现出与人类专家相当的性能,同时在存在与任务无关的观察数据时表现出鲁棒性。
- IJCAI深度强化学习的动态稀疏训练
本文提出了一种新的动态稀疏训练方法用于加速深度强化学习的过程,通过在持续控制任务上实验证明,该方法可以显著提高深度强化学习的性能,降低参数数量和浮点运算数,并使训练步骤减少 40-50%。
- LazyDAgger: 降低交互式模仿学习中的上下文切换
LazyDAgger 是一种互动式的模仿学习算法,通过减少监督员和自主控制之间的上下文切换次数,提高了学习和执行过程中所学策略的性能和鲁棒性,且在限制监督员负担的同时,能够在 3 个连续控制任务中平均减少 60%的上下文切换,并在 ABB - 使用典型表示的强化学习
Proto-RL 是一种基于自我监督的框架,将表示学习与探索相结合,通过原型表示来实现,从而解决了强化学习中表示学习与探索之间的挑战,并在不带下游任务信息的环境中预训练这些任务无关的表示和原型,实现了一组困难的连续控制任务的最新下游策略学习 - On-Policy 强化学习中的重要因素:一个大规模实证研究
通过一个统一的基于策略的强化学习框架,在五种不同复杂度的连续控制环境中训练了超过 250000 个智能体,对强化学习的实现决策进行了大规模的实证研究,并提供了针对基于策略的训练推荐和技巧。
- ICLR原始 Wasserstein 模仿学习
本文提出了一种新的基于 Primal Wasserstein Imitation Learning(PWIL)算法的 Imitation Learning method,通过离线推导奖励函数,在 MuJoCo 领域的多个连续控制任务中实现了 - IJCAI双重策略蒸馏
本文提出了一种双学习者的框架,名为双重策略蒸馏(DPD),其中两个学习者在同一环境中运行,以探索环境的不同方面并相互提取知识以增强他们的学习,并对几个连续控制任务进行实验,表明该框架可以在没有使用昂贵的教师模型的情况下,在具有学习基础的代理 - 以 Wasserstein 距离为导向的对抗模仿学习,结合奖励形状探索
本文提出的名为 WDAIL 的新算法,在 采用 Wasserstein 距离、Proximal Policy Optimization 技术和不同的 奖励函数形状等三个方面做了改进,提高了模拟学习的性能,并在 MuJoCo 的复杂连续控制任 - MOPO: 基于模型的离线策略优化
本文提出了一种基于模型的离线策略优化算法 (MOPO),通过将模型地图上未知点处的即时报酬设置为高风险,从而优化模型训练过程中的代理策略,以解决离线数据分布发生漂移的问题,并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。
- ABC-LMPC:针对可调边界条件的随机非线性动态系统的安全基于样本的学习型模型预测控制
本文提出一种可适应起点和目标配置的 LMPC 算法,旨在保证最终控制器在随机非线性系统中的期望迭代收敛,并通过实际测试表明,该控制器适用于多种初始和终端条件的控制任务。
- 连续控制中的状态抽象学习与迁移
使用简单的算法和良好的表示能否解决困难的强化学习问题?本文回答了这个问题,并提出了一种将连续状态空间抽象为离散的学习算法,将其转移到未知问题中以实现有效的学习,并证明学习到的抽象保持有界的值损失,实验证明该抽象使 tabular Q-Lea - Ready Policy One: 通过积极学习构建世界
本文介绍了 Ready Policy One (RP1),将基于模型的强化学习视为一个主动学习问题,利用混合目标函数,在优化期间关键性的适应,以便在学习的不同阶段权衡奖励与探索,同时介绍了一个原则性的机制以停止样本收集。在多个连续控制任务中