具有预测处理相邻策略优化的高效深度强化学习
通过使用深度预测策略训练框架,该研究提出了一种有效的方法来训练预测动作策略,使用合成和模拟训练样本来强制进行视觉和运动数据的抽象,以及使用策略搜索强化学习方法来训练每个任务的策略超层,该框架在 PR2 机器人上训练物体抓取和投球等技能任务,并且训练样本只使用了约 180 次实际机器人尝试,达到了很好的效果。
Mar, 2017
本研究通过提出一种基于乐观策略优化的方法(Optimistic Proximal Policy Optimization,OPPO),针对奖励稀少的领域,考虑了总收益的不确定性并在此基础上对策略进行乐观评估,从而优化自主代理的学习效果,实现了在表格任务上优于现有方法的结果。
Jun, 2019
探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用,为此针对马尔可夫决策过程和半马尔可夫决策过程问题,优化了现有的策略改进边界,并提出了新的策略改进边界,并使用定制的 PPO 算法对处理网络控制问题进行了解决。
May, 2022
强化学习面临着应用于现实问题的巨大挑战,主要源于有限的与环境交互导致的可用数据的稀缺性。本研究引入了生物学上可行的近端策略优化的实现,通过在重要领域中显著减轻这一挑战,提高了学习的效率。
Jan, 2024
本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。
Jun, 2017
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化 (PPO),通过与环境的交互采样数据,并使用随机梯度上升优化 “替代” 目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
本论文研究了使用 Progressive Networks 这种方法来解决转移学习和遗忘问题,通过提出新的敏感性测量方法来评价该方法在各种强化学习任务上的表现,并表明它优于基于预训练和微调的常见基线。
Jun, 2016
我们通过课程学习原则和细致的奖励工程,使用近端策略优化(PPO)智能体对一个现实世界中的高吞吐量垃圾分类设施进行训练,以达到优化操作安全、优化处理量和最小化资源使用的竞争目标,并将其逐渐应用于更加复杂的环境动力学中,同时完善奖励机制,从而提高推理时间安全性并提高垃圾分类工厂的效率。
Apr, 2024
将生理计算融入混合主动型人机交互系统中,通过将实时特征作为人体状态观察纳入决策系统,为自主任务分配提供了有价值的优势。通过在代理之间智能地分配任务来减轻人员认知负担。然而,应对具有不同生理和行为测量的多样化人员池的挑战较大。为了解决这个问题,需要采用概率框架,考虑到人的状态的内在不确定性和部分可观察性。最近的研究表明,可以从以前收集的经验数据集中学习部分可观察马尔科夫决策流程模型,并使用离线强化学习方法来解决该模型。在本研究中,我们不仅强调部分可观察表示和生理测量能够改进人员状态估计和绩效,而且还能增强人机团队的整体任务效果。值得注意的是,由于固定的数据集可能无法完整表示复杂的随机过程,因此我们提出了一种方法来考虑模型不确定性,从而实现风险敏感的序列决策。在模拟机器人远程操作环境下对 26 名参与者进行了实验,结果获得了该方法的实证证据。获得的自适应任务分配策略导致的得分显著高于用于收集数据集的策略,可以在多样化参与者之间进行推广,并考虑风险敏感的指标。
Feb, 2024
本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本(OPPO),它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下,探索机制下的近似最优解,是第一种实现这一目标的算法。
Dec, 2019