- 通过分摊近似最大化实现巨大动作空间中的 Q 学习
本文提出一种名为 Amortized Q-learning (AQL) 的方法,利用类似于摊销推理的技术,通过从学习到的建议分布中采样一小部分可能的动作,取代所有动作的昂贵最大化,从而处理离散、连续或混合动作空间,同时保持 Q-learni - 强化学习的双重稳健离线策略演员 - 评论家算法
本文研究了离策略演员 - 评论家算法的离策略评论家评估问题,并通过将双重稳健估计方法应用于演员 - 评论家算法中,成功提高了连续控制任务的性能。同时,该方法还可以应用于存在高方差和不稳定性等问题的奖励信号,从而提高了强化学习的稳健性与安全性 - 行为规范化的离线强化学习
该研究针对强化学习中现实世界应用的局限性,提出了一种 BRAC 的方法,并通过多个离线 RL 任务的实验,发现许多技术上的复杂性是不必要的。
- 乐观演员 - 评论家算法实现更好的探索
本论文提出了一种新的强化学习算法 —— 乐观的 Actor-Critic 方法 (OAC),通过在状态动作值函数上近似上限和下限的置信区间,实现了在探索性上的乐观及方向性采样,从而提高了算法对连续控制任务的采样效率。
- ICLR策略优化中的正则化问题
通过深度强化学习的控制任务,对传统正则化技术在多种优化算法中的应用及效果进行综合研究,发现传统的正则化技术能够改善学习效果,特别在较难的任务中,说明正则化有助于强化学习中的泛化表现。
- 具有概率上下文变量的元反强化学习
研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数,从而有效地解决逆强化学习中从少量演示推断奖励的问题,并在多个连续控制任务中展示了实验结果。
- MCP:利用乘法组合策略学习可组合的层次控制
本研究提出了一种用于学习可重复使用的运动技能并将其组合为复杂行为的方法,该方法称为 “可组合的原语”,可以将代理人的技能分解为基本元素,这些基本元素可以通过乘法组合同时激活,从而使基本元素能够相互传输和重组,以适应新任务的需要,并演示了该方 - ICML演化奖励函数自动化强化学习
使用 AutoRL,一种进化层,通过将奖励调整视为超参数优化并训练一组 RL 代理来寻找最大化任务目标的奖励,使得评估了两个 RL 算法上四个 Mujoco 连续控制任务之后 AutoRL 在改善之前的工作基础之上表现出提升,复杂任务上的提 - IJCAI连续控制深度强化学习的自回归策略
本文提出了一种自回归策略,以改善强化学习在连续控制任务中的探索效率,从而产生平稳的探索轨迹以及较高的采样效率。
- 分布式鲁棒强化学习
本文提出了一种基于风险规避的探索策略,使用分布式鲁棒策略迭代方案来确保学习过程中的安全,并在连续状态 / 操作空间中扩展了此方法,得出了分布式鲁棒软演员 - 批评家算法的实用算法。
- 一种基于重要性采样的随机无导数优化方法:理论与学习控制
本文提出了首个具有重要性采样的导数无关优化方法,并针对非凸、凸和强凸函数推导出新的改进的复杂性结果。作者进行了大量实验,证实该算法在高维连续控制问题中具有实用性。
- 强化学习中动态物体的运动感知
本文研究了动态环境下机器学习控制问题,提出了显式地学习动作表示可以提高学习控制器的质量,在某些情况下不需要额外的监督,通过使用图像差异来替代时序帧堆叠能够取得更好的效果。
- ICLR基于优势加权信息最大化的分级强化学习
本研究提出了一种基于相互信息最大化学习层次策略潜变量的 HRL 方法,用于优化连续控制任务中的强化学习性能,并介绍了优势加权重要性采样和确定性策略梯度方法,以实现选项策略选择和优化。实验结果表明,该方法可以学习多样化的选项并增强连续控制任务 - 线性二次调节器中基于模型和免模型方法之间的差异:一种渐近观点
研究在连续控制任务上,基于模型的方法与无模型方法的样本复杂度差异,发现基于模型的策略评估方法的样本复杂度会比最小二乘时序差分方法低,且最佳控制常常需要较少的样本量,这是首次在连续控制任务上证明了基于模型和无模型方法样本复杂度的分离现象。
- 从像素学习潜在动力学规划
通过图像学习环境动态、通过快速在线规划选择动作,利用深度计划网络(PlaNet)解决了连续控制任务中的挑战,同时使用的强度模型相对较少。
- 重要性采样的策略优化
本文提出一种新的,无模型的策略搜索算法,POIS,它适用于基于动作和基于参数的设置,可在连续控制任务中有效地解决强化学习问题,通过离线优化新的轨迹批次来定义一个替代目标函数,并使用高置信度界限来解决估计的目标函数方差问题。
- 基于生成对抗网络的样本高效模仿学习
本文介绍了一种在模型 free 的前提下能够提高采样效率的演员评论家结构,利用了 GAIL 中对抗训练的方法和离策略演员评论家的优势,在多个连续控制任务中,我们证明了这种方法的简洁易行和稳定性。
- IJCAI二阶优势信息的策略优化
本文提出了一种基于控制变量和 Rao-Blackwell 定理的策略优化方法,将其融合到一个统一的框架中,以降低高维连续控制任务中的策略梯度估计器方差,并成功将其应用于高维综合设置和 OpenAI Gym 的 MuJoCo 连续控制任务中。
- 基于模型的价值估计,用于高效的无模型强化学习
本文提出了一种基于模型的价值拓展方法,通过限制想象的深度,控制模型的不确定性,提高了模型自由强化学习算法中学习价值估计的样本复杂度,针对连续控制任务使用了学习到的动态模型。
- 多目标强化学习:挑战机器人环境与研究请求
介绍了一组具有挑战性的连续控制任务,并提出了许多改进强化学习算法的研究思路。