- ICMLEvIL:演化策略用于可广泛应用的模仿学习
在仿真学习中,我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能,同时加速目标环境中的重新训练,在连续控制任务中比之前的工作更加高效地重新训练策略。
- 具收敛保证的谱风险安全强化学习
我们提出了一种基于谱风险度量约束的增强学习算法,该算法利用了谱风险度量的对偶性,通过双层优化结构来实现收敛性和最优性,从而在表格设置中保证了最佳性能,并在连续控制任务中展现出了最好的性能。
- 离线强化学习中的结构化非稳定性数据集
当前强化学习通常受到需要大量数据来学习成功策略的限制。离线强化学习旨在通过使用由不同行为策略收集到的转换来解决这个问题。我们提出了一种基于对比预测编码的方法,该方法识别了离线数据集中的非稳定性,在训练策略时对其进行考虑,并在评估过程中进行预 - 连续控制增强学习:分布分布式 DrQ 算法
Distributed Distributional DrQ 是一个无模型离线 RL 算法,用于连续控制任务,基于代理的状态和观测,是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础,该 - 基于模型内在动机的离策略学习与主动在线探索
通过引入预测模型和离线学习元素,结合一个实用性较高的终端价值函数,本文研究了如何在连续控制任务中实现样本高效的探索能力。通过利用潜在状态空间内的前向预测误差,我们得出了一种不引入额外参数的固有奖励。该奖励与模型不确定性有强烈的关联,使得智能 - 质量多样性演员 - 评论家:通过价值和继承特征评论家学习高性能和多样性行为
智能的一个关键方面是能够展示适应意外情况的广泛行为范围。在过去的十年中,深度强化学习的进展在解决复杂连续控制任务方面取得了突破性成果。本文介绍了一种质量 - 多样性演员 - 评论家(QDAC)的离线演员 - 评论家深度强化学习算法,它利用价 - 基于模型的方法提高强化学习效率:借助专家观察
该研究通过采用专家观察(不涉及具体专家行为信息)来改进深度强化学习模型的样本效率,并通过提出一种自动调整增强损失函数中各组成部分权重的算法,证明了该算法在多种连续控制任务中通过有效利用可用的专家观察优于其他基准模型。
- ACE:具有因果感知熵调整的离策略演员 - 评论家算法
我们提出了 ACE 算法:基于因果关系的策略梯度法,通过引入因果关系熵项和梯度休眠现象引导重置机制,取得了在连续控制任务上显著的性能优势。
- 深度双 Q 学习在演员评论方法中的估计偏差利用
本文介绍了创新的强化学习方法,重点是解决和利用演员 - 评论家方法中连续控制任务中的估计偏差,使用深度双 Q 学习。我们提出了两种新算法:期望延迟深度确定性策略梯度(ExpD3)和偏差利用 - 双延迟深度确定性策略梯度(BE-TD3)。Ex - 离线演员 - 评论家强化学习在大规模模型中的扩展
离线演员 - 评论家强化学习能够扩展到大规模模型(如变压器)并遵循监督学习的相似扩展规律。我们发现,离线演员 - 评论家算法在 132 个连续控制任务的大型数据集上的多任务训练中,能够优于强大的监督式行为克隆基线。我们引入了一种基于感知机的 - ICLR识别政策梯度子空间
通过评估两种常用的深度策略梯度方法在各种模拟基准任务上的表现,我们的研究结果表明,尽管强化学习所固有的数据分布不断变化,梯度子空间仍然存在,这为未来更高效的强化学习提供了有益的方向,例如通过改善参数空间探索或实现二阶优化。
- 通过最优传输从观察中进行模仿学习
实时观察下的模仿学习 (ILfO) 中,利用最优传输来生成奖励函数,通过状态轨迹的 Wasserstein 距离衡量学习者和专家之间的差异,无需学习模型或对抗学习,可以与任何强化学习算法集成,并适用于 ILfO,能在多个连续控制任务中超越现 - 博弈论的鲁棒强化学习处理时耦合扰动
提出了一个新的挑战,即通过 GRAD 方法将强化学习中的时间上耦合的扰动问题视为部分可观察的两人零和游戏,并通过在该游戏中找到逼近均衡来确保智能体对于时间上耦合的扰动的鲁棒性,实验结果表明,相比于基准方法,在状态空间和动作空间中,所提出的方 - 具备死亡避免和恢复功能的安全强化学习
本文提出了一种较少对 RL 探索限制的安全 RL 框架方法,通过利用预训练的安全批判和安全恢复策略来构建一个划定安全状态的边界,并采用行为校正机制确保代理只采取安全动作,该方法在连续控制任务中表现出更好的任务性能和更少的安全违规。
- 高效连续控制的时间分层架构
我们提出了一种时间分层框架 (TLA),以最小化能量消耗进行时间自适应控制。 TLAlayer 了一个快速和一个慢速策略以实现时间抽象,使每层专注于不同的时间尺度。我们的设计借鉴了人脑的节能机制,根据环境要求在不同的时间尺度下执行动作。我们 - 自适应、分布式和连续控制的时间分层架构
该研究提出可适应时间分布式控制的分层式体系结构,该设计模仿人脑的架构,在不同时间尺度上执行动作以适应环境的需求,通过两种不同的算法进行训练,并在连续控制任务中证明比现有方法具有优势。
- 元元强化学习个性化策略的收敛理论
该论文提出了一种个性化元强化学习算法 (pMeta-RL),旨在解决元强化学习中的梯度冲突问题,该算法将任务特定的个性化策略汇总以更新用于所有任务的元策略,同时保持个性化策略以最大化每个任务的平均回报。该算法在离散和连续控制任务中的实验表明 - 强化学习中的局部约束表达
本文提出一种局部约束表示法,通过对环境观测状态的预测及邻近状态的表示作为辅助损失,将强化学习中的表示与任务相分离,可以提高泛化能力,有效应用于连续控制任务中。
- MO2: 基于模型的离线选项
本研究提出了 Model-Based Offline Options(MO2) 算法,支持在连续的状态 - 动作空间中进行样本高效的瓶颈选项发现,以提高对转移域上的探索和值估计,实验结果表明,在复杂的长视程连续控制任务中,MO2 的特性是至 - ICML确定性策略梯度算法的安全稳健体验共享
本研究介绍了一种基于经验共享机制和无需动作概率估计的离策略校正技术,以应对在高维持续任务中,经验重现内存非常有限的挑战。该方法能够在具有严格限制的重现缓冲器内安全地共享多个代理人的经验,并在具有挑战性的 OpenAI Gym 连续控制任务中