具有预测处理相邻策略优化的高效深度强化学习

Nov, 2022

具有预测处理相邻策略优化的高效深度强化学习

Efficient Deep Reinforcement Learning with Predictive Processing Proximal Policy Optimization

Burcu Küçükoğlu, Walraaf Borkent, Bodo Rueckauer, Nasir Ahmad, Umut Güçlü...

TL;DR人类的大脑通过预测性处理的方式，以较小的资源实现了有效的控制策略，该研究利用预测性处理理论，建立了一个可以预测自身感观状态的循环神经网络模型在强化学习中的应用，并证明该模型在多个游戏中的表现，优于同等时间内的其他同类模型以及人类玩家。

Abstract

Advances in reinforcement learning (RL) often rely on massive compute resources and remain notoriously sample inefficient. In contrast, the human brain is able to efficiently learn effective control strategies using limited resources. This raises the question whether insights from

reinforcement learning predictive processing recurrent neural networks artificial agents neuroscience

发现论文，激发创造

深度预测策略训练采用强化学习

通过使用深度预测策略训练框架，该研究提出了一种有效的方法来训练预测动作策略，使用合成和模拟训练样本来强制进行视觉和运动数据的抽象，以及使用策略搜索强化学习方法来训练每个任务的策略超层，该框架在 PR2 机器人上训练物体抓取和投球等技能任务，并且训练样本只使用了约 180 次实际机器人尝试，达到了很好的效果。

Mar, 2017

乐观的近端策略优化

本研究通过提出一种基于乐观策略优化的方法（Optimistic Proximal Policy Optimization，OPPO），针对奖励稀少的领域，考虑了总收益的不确定性并在此基础上对策略进行乐观评估，从而优化自主代理的学习效果，实现了在表格任务上优于现有方法的结果。

Jun, 2019

深度强化学习下的网络控制处理

探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用，为此针对马尔可夫决策过程和半马尔可夫决策过程问题，优化了现有的策略改进边界，并提出了新的策略改进边界，并使用定制的 PPO 算法对处理网络控制问题进行了解决。

May, 2022

在脉冲神经网络中学习快速变化的缓慢

强化学习面临着应用于现实问题的巨大挑战，主要源于有限的与环境交互导致的可用数据的稀缺性。本研究引入了生物学上可行的近端策略优化的实现，通过在重要领域中显著减轻这一挑战，提高了学习的效率。

Jan, 2024

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

渐进式神经网络

本论文研究了使用 Progressive Networks 这种方法来解决转移学习和遗忘问题，通过提出新的敏感性测量方法来评价该方法在各种强化学习任务上的表现，并表明它优于基于预训练和微调的常见基线。

Jun, 2016

使用课程学习和奖励工程的近端策略优化解决实际优化问题

我们通过课程学习原则和细致的奖励工程，使用近端策略优化（PPO）智能体对一个现实世界中的高吞吐量垃圾分类设施进行训练，以达到优化操作安全、优化处理量和最小化资源使用的竞争目标，并将其逐渐应用于更加复杂的环境动力学中，同时完善奖励机制，从而提高推理时间安全性并提高垃圾分类工厂的效率。

Apr, 2024

离线风险敏感的部分可观察性强化学习以提升人机协作性能

将生理计算融入混合主动型人机交互系统中，通过将实时特征作为人体状态观察纳入决策系统，为自主任务分配提供了有价值的优势。通过在代理之间智能地分配任务来减轻人员认知负担。然而，应对具有不同生理和行为测量的多样化人员池的挑战较大。为了解决这个问题，需要采用概率框架，考虑到人的状态的内在不确定性和部分可观察性。最近的研究表明，可以从以前收集的经验数据集中学习部分可观察马尔科夫决策流程模型，并使用离线强化学习方法来解决该模型。在本研究中，我们不仅强调部分可观察表示和生理测量能够改进人员状态估计和绩效，而且还能增强人机团队的整体任务效果。值得注意的是，由于固定的数据集可能无法完整表示复杂的随机过程，因此我们提出了一种方法来考虑模型不确定性，从而实现风险敏感的序列决策。在模拟机器人远程操作环境下对 26 名参与者进行了实验，结果获得了该方法的实证证据。获得的自适应任务分配策略导致的得分显著高于用于收集数据集的策略，可以在多样化参与者之间进行推广，并考虑风险敏感的指标。

Feb, 2024

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019