线性奖励塑造的乐观好奇探索和保守利用

Sep, 2022

线性奖励塑造的乐观好奇探索和保守利用

Optimistic Curiosity Exploration and Conservative Exploitation with Linear Reward Shaping

Hao Sun, Lei Han, Rui Yang, Xiaoteng Ma, Jian Guo...

TL;DR该研究探讨了在基于价值的深度强化学习过程中的奖励构造，并在此基础上提出了正向奖励构造可以实现保守型利用、负向奖励构造则有助于优化探索等观点，建立了一套实现快速收敛的解决方案。

Abstract

In this work, we study the simple yet universally applicable case of reward shaping in value-based deep reinforcement learning (DRL). We show that reward shifting in the form of the linear transformation is equivalent to changing the initialization of the $Q$-function in function appro

deep reinforcement learning reward shaping offline rl online rl exploration-exploitation dilemma

发现论文，激发创造

强化学习中的保守探索

本文介绍了在概率有限马尔可夫决策问题中引入保守探索的概念，并提出了两种乐观算法，以保证学习过程中不违反保守约束，这不会妨碍算法的学习能力，并给出了后悔界限。

Feb, 2020

强化学习中的探索与利用：一种随机控制方法

研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案，提出使用行为分布的微分熵来规范化奖励函数的熵正则化，并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索，最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时，解法能够收敛于经典 LQ 问题的解。

Dec, 2018

细致估计，大胆探索

基于双 Q 函数框架，引入一种新的探索策略来解决连续动作空间中政策梯度法探索的问题，通过使用贪婪 Q 值和保守 Q 值的加权和来更新 Q 值，将行动探索与 Q 值更新相结合，并在 Mujoco 基准测试中展示了优越的性能。

Aug, 2023

通过知识危险寻优策略优化实现高效探索

提出了一种基于期望风险的探索算法，通过训练神经网络和优化策略使智能体具有探索未知状态的能力，在深度强化学习中表现出良好的性能。

Feb, 2023

解析奖励塑造：理解奖励工程对样本复杂性的益处

本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性，并提出了一种将奖励设计融入强化学习框架的方案，并通过基于奖励设计所得到的样本效率的提高，证明了该方案在实践中的有效性。

Oct, 2022

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

探索感知强化学习再探

研究在强化学习中的探索和利用的权衡，通过解决探索感知标准来获得最优政策，结果是在表格和深度强化学习算法中应用简单变化并在离散和连续动作空间中，相对于非探索感知对应物表现出更好的性能。

Dec, 2018

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

抓住意外收获：利用往期成功价值进行非同策略演员 - 评论家算法

提出了混合利用和探索算法（BEE）来解决强化学习后期出现的低估 Q 值问题，具有较高的样本效率和实用性。

Jun, 2023