VA-learning 作为比 Q-learning 更高效的替代方案

May, 2023

VA-learning 作为比 Q-learning 更高效的替代方案

VA-learning as a more efficient alternative to Q-learning

Yunhao Tang, Rémi Munos, Mark Rowland, Michal Valko

TL;DR本研究介绍了 VA-learning 方法，通过学习优势函数和价值函数的直接引导，而不需要参考 Q 函数，从而提高了样本效率，并且在 Atari-57 游戏上，VA-learning 的表格实现和深度强化学习代理都能够获得比 Q-learning 更好的表现，同时还揭示了 VA-learning 和 dueling architecture 之间的紧密联系。

Abstract

In reinforcement learning, the advantage function is critical for policy improvement, but is often extracted from a learned Q-function. A natural question is: Why not learn the →

reinforcement learning policy improvement va-learning advantage function dueling architecture

发现论文，激发创造

从无向状态经验中学习价值函数

本文介绍了一种从无指向性状态体验（即（s，s'，r）三元组，没有动作标签的状态转换）中学习价值函数的方法，该方法基于 Q-learning 将离散潜在变量预测模型中产生的离散潜在动作与值函数联系起来，并实验证明其效益。

Apr, 2022

Vlearn：基于高效状态 - 价值函数估计的离策学习

提出了一种名为 Vlearn 的新型离策略信任区域优化方法，通过只利用一个状态值函数作为评论家来克服现有方法的多个限制，在处理高维动作空间时解决了计算上的挑战。同时，通过消除对状态 - 动作 - 值函数的需求，Vlearn 简化了学习过程，在复杂环境中实现了更高效的探索和利用。

Mar, 2024

深度品质 - 价值学习（DQV 学习）

本文介绍了一种新颖的深度加强学习算法 ——Deep Quality-Value（DQV） Learning。通过测试两个经典强化学习问题和四个 Atari 游戏，结果表明，DQV 比 Deep Q-Learning 和 Double Deep Q-Learning 学习得更快，更好，表明该算法可能是一种比当前 DRL 中已有的同步时差算法表现更好的算法。

Sep, 2018

增值取样用于语言模型对齐和个性化

通过价值增强抽样（VAS）的奖励优化框架，不需要共同训练策略和值函数的情况下，最大化不同奖励函数，相较于现有基线模型，在标准基准测试中不仅优于 PPO 和 DPO，而且与 Best-of-128 相比具有更低的推理成本，从而实现了优化的稳定性，并能适应仅作为 API 提供的 LLMs（例如 ChatGPT），同时为对齐的个性化 LLMs 的未来铺平道路。

May, 2024

V-Learning -- 多智能体强化学习的简单高效去中心化算法

使用新类别的分散式算法 - V-learning 解决了多智能体强化学习中联合行动空间指数级增长的问题，在有限态和操作情况下，能够学习 Nash 均衡、相关均衡和粗略相关均衡。

Oct, 2021

发现强化学习算法

该论文提出一种新的元学习方法，可以通过与一组环境交互，发现一个包含价值函数和时间差分学习等元素的更新规则，从而得到一个名为 LPG 的 RL 算法，该方法可以发现自己对于价值函数的替代方案，并有效地推广到复杂的 Atari 游戏中。

Jul, 2020

通过变分推断实现基于结果的强化学习

通过提出一种新的变分推断形式，从环境交互中直接学习良好的奖励函数，并使用新的概率贝尔曼反演运算符，发展了一种离线策略算法来解决目标导向任务，该方法消除了手工制作奖励函数的需要，并对各种机械操纵和运动任务产生了有效的目标导向行为。

Apr, 2021

基于模型的持续深度 Q 学习加速

本研究探讨了算法和表示方法，以降低针对连续控制任务的深度强化学习的样本复杂度，并提出了两种互补的技术来提高这种算法的效率，包括导出连续 Q 学习算法的归一化优势函数以及使用学习的模型来加速无模型强化学习，并在一组模拟机器人控制任务中表现出明显的改进。

Mar, 2016

对比价值学习：简单离线强化学习的隐式模型

本文介绍了一种新的模型 - 基强化学习方法 Contrastive Value Learning 用于离线场景中，在不受奖励函数限制下，学习一个隐含的、多步骤的环境动力学模型，直接估计每个动作的价值，并在复杂的连续控制基准测试中优于先前的离线 RL 方法。

Nov, 2022

基于虚拟行动演员 - 评论家框架的探索

通过引入虚拟行动演员 - 评论家框架（VAAC），本文提出了一种用于强化学习中有效探索的新型演员 - 评论家框架，其灵感来自人类在不实际采取行动的情况下预想其潜在结果的能力。实验结果表明，VAAC 相比现有算法改善了探索性能。

Nov, 2023