增强强化学习智能体与本地指导

Feb, 2024

Enhancing Reinforcement Learning Agents with Local Guides

Paul Daoudi, Bogdan Robu, Christophe Prieur, Ludovic Dos Santos, Merwan Barlier

TL;DR本文研究如何将本地指南政策整合到强化学习代理系统中，提出了基于嘈杂策略切换的算法，并通过适当的近似策略评估方案，将本地指南引导向更好的行动，从而改善强化学习算法在安全关键系统等领域的性能。

Abstract

This paper addresses the problem of integrating local guide policies into a reinforcement learning agent. For this, we show how to adapt existing algorithms to this setting before introducing a novel algorithm ba

local guide policies reinforcement learning agent noisy policy-switching procedure approximate policy evaluation safety-critical systems

发现论文，激发创造

学习带有专业指导的安全策略

提出一种用于确保强化学习智能体在奖励函数难以指定的情况下保持安全行为的框架，该框架依赖于来自专家策略的演示，并提供了一个理论框架，以优化智能体在现有知识一致的奖励空间中。我们提出了两种方法来解决产生的优化问题：一种是基于精确椭球方法，另一种是基于 “跟随扰动领导者” 算法的方法。我们的实验证明了我们算法在离散和连续问题中的行为，训练出来的智能体在模仿专家行为的同时安全地避免了具有潜在负面影响的状态。

May, 2018

强化学习中的种群指导并行策略搜索

提出了一种新的基于群体引导的并行学习方法，通过在共享经验回放缓冲区中搜索良好的策略，结合最佳策略信息，软融合构建损失函数，以实现稀疏奖励环境下提升最佳期望累计回报的目的，其中 TD3 算法是工作算法之一。

Jan, 2020

基于人机互动的智能体无关强化学习

本论文探讨了一种 agent-agnostic 模式的 Human-in-the-Loop 强化学习教学方案，以期将人类教师的有益特性融入强化学习中，同时试验了在简单领域中应用 action pruning、reward shaping 和 training in simulation 等已有方法并将其表现为本模式的特例。

Jan, 2017

百人为导师，百万人引领：自适应离线强化学习与专家指导

离线强化学习中典型问题是分布转移问题，我们提出了一种名为 Guided Offline RL（GORL）的新方法，使用引导网络和少数专家演示样本，自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明，GORL 可在大多数离线强化学习算法上轻松安装，并实现统计上显著的性能提升。

Sep, 2023

引导安全探索的强化学习

安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法，通过在受控环境中训练引导智能体以安全探索，最终实现有效的安全传输学习，帮助学生机器人更快地解决目标任务。

Jul, 2023

多导师强化学习

通过分布式学习将单智能体 RL 问题分配给多个学习者，并使用本地化规划策略，引入了一种新的基于共情策略的解决方案，并在实验中验证了其在果实收集任务上的效果。

Apr, 2017

群体系统的引导深度强化学习

本文研究了如何使用有限的传感能力控制一组合作智能体，使用了基于演员 - 评论家算法的深度强化学习以近似 Q 值函数和策略评估，评估了在寻找和维持距离和定位目标方面的性能。

Sep, 2017

多智能体强化学习中局部优化实现全局最优

该研究提出了一种基于多智能体强化学习的 PPO 算法，其中每个代理的本地策略类似于 vanilla PPO，并且通过引入悲观主义来评估策略。该算法是合作 Markov 游戏中首个可证明收敛的多智能体 PPO 算法。

May, 2023

通过专家指导的策略优化实现安全驾驶

研究者提出了一种基于专家支持的强化学习模式，其中引入了一个守护者来保障学习的过程安全，在保证足够探索性的同时，在危险时进行干预并演示正确行为以避免潜在的事故。使用约束优化技术来避免故意表现出危险行为欺骗专家，并使用离线强化学习技术从专家生成的部分演示中进行学习。试验表明，该方法在训练和测试时表现出更高的安全性，比基线方法在样本效率方面具有更高的性能，并保持对未知环境的一般性。

Oct, 2021

一种面向离线强化学习的策略引导仿真方法

该研究提出了一种 Policy-guided Offline RL 算法，该算法在训练时将想法分解为指导策略和执行策略，并通过指导策略来指导执行策略以实现状态组合性。该算法在离线 RL 的标准基准 D4RL 上展示了最高效的性能，并可以通过改变指导策略来轻松适应新的任务。

Oct, 2022