基于贝叶斯赌博机的策略不变显式塑形方法，用于融合外部建议的强化学习

Apr, 2023

基于贝叶斯赌博机的策略不变显式塑形方法，用于融合外部建议的强化学习

Bandit-Based Policy Invariant Explicit Shaping for Incorporating External Advice in Reinforcement Learning

Yash Satsangi, Paniz Behboudian

TL;DR该论文提出一种名为 Shaping-Bandits 的多臂赌博问题来解决如何将外部建议纳入强化学习智能体的学习之中，并提出了三种不同的塑形算法，旨在考虑遵循专家策略或默认 RL 算法的长期后果。通过实验验证这些算法在四个不同的设置中实现了所述目标。

Abstract

A key challenge for a reinforcement learning (RL) agent is to incorporate external/expert1 advice in its learning. The desired goals of an algorithm that can shape the learning of an RL agent with external advice

reinforcement learning external advice multi-armed bandit shaping algorithms expert policy

发现论文，激发创造

深度强化学习中的形状建议

本文提出由观察和行动函数构成的势函数的差作为附加奖励的 shaping advice 来增加环境奖励的稀疏性问题的增强学习方法，分别在单智能体和多智能体强化学习中应用。通过理论分析和实验评估指出，使用 shaping advice 能够使规则更快地学习任务并获得更高的奖励。

Feb, 2022

使用策略和奖励塑形的无人机控制强化学习

本研究采用奖赏塑形和策略塑形技术同时训练 RL 智能体，以控制无人机；结果表明，与仅使用基于策略的方法训练智能体相比，使用两种技术同时训练的智能体获得了较低的回报，但训练期间达到了更低的执行时间和更少的离散度。

Dec, 2022

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

通过奖励塑造在强化学习中保证控制需求

在满足控制问题中的规范和追踪要求的过程中，需要通过强化学习来保证所获得的策略在部署之前能够满足必要的性能和稳定性准则，如期望的调整时间和稳态误差。基于这种必要性，本文提出了一组结果和系统奖励设计过程，可以确保最优策略生成的轨迹与指定的控制要求相一致，并且可以评估任何给定的策略是否满足这些要求。我们通过在 OpenAI Gym 的两个代表性环境 —— 倒立摆摆动问题和月球着陆器问题中进行了全面的数值实验来验证我们的方法。通过使用表格和深度强化学习方法，我们的实验一致证明了我们提出的框架的有效性，突出了其确保策略符合所规定的控制要求的能力。

Nov, 2023

朝着计算高效的逆强化学习方向进发：通过奖励塑形

逆向强化学习是具有计算挑战性的，常见方法需要解决多个强化学习子问题。本研究激励使用基于潜力的奖励塑造来减轻每个强化学习子问题的计算负担，并希望能激发未来对计算效率高的逆向强化学习的发展。

Dec, 2023

影响性强盗：偏好塑造的臂选择

该研究论文探讨了非平稳的多臂赌博机中，通过观察到的奖励来积极和消极地加强人群偏好，算法的目标是塑造人群偏好，从而最大化人群中支持特定臂的比例，提出了不同意见动态模型，包括两种二元意见动态（弹性递减和常数弹性），探讨了不同策略及其遗憾值的分析，针对多于两种意见的情况提出了基于 Thompson 采样的算法，同时讨论了多个推荐系统存在时受欢迎度和意见塑造目标之间的权衡问题。

Feb, 2024

一种用于选择强化学习智能体的赌博机框架

本文提出一种基于多臂赌博机框架的深度强化学习方法，通过选择最适合特定应用的学习模型和增强学习代理，解决了实际应用中环境不明确和奖励不稳定等问题。实验结果表明该方法在标准环境下能够选出最优代理，并且相较于其他策略在同样步数内获得更高的累计奖励值。

Feb, 2019

强化学习智能体教学的学习

本文研究了在预算下动作建议的转移学习模型。我们关注于在有限建议预算下，强化学习教师向异质学生提供游戏 Pac-Man 的行动建议。第一，我们研究了影响此设置下建议质量的几个关键因素，例如教师的平均表现，其方差以及奖励折现在建议中的重要性。实验表明，变异系数 (CV) 作为选择生成建议策略的统计量具有重要的非平凡意义。第二，本文研究了在预算下分配建议的策略学习。虽然相关文献中大多数方法都依赖于启发式方法进行建议分配，但我们将问题进行学习，并提出了一种新的强化学习算法，该算法能够学习何时提供建议，适应于学生和手头的任务。此外，我们认为在预算下学习建议是一个更通用的学习问题的例子：受限开发强化学习。

Jul, 2017

自主驾驶中的强化学习智能体风险感知奖励塑形

该研究提出了一种基于风险感知的奖励塑形方法，以鼓励探索和惩罚高风险驾驶行为，并在 OpenAI Gym 的模拟研究中表明，风险感知的奖励塑形对于各种强化学习智能体具有优势，同时指出近端策略优化（PPO）是最适合使用风险感知奖励塑形的强化学习方法。

Jun, 2023

教育中的强化学习：多臂赌博机方法

本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题，采用强化学习的代理模型结合混合学习方法，景点在线平台的自动化功能

Nov, 2022