双线性值网络

Apr, 2022

Bilinear value networks

Zhang-Wei Hong, Ge Yang, Pulkit Agrawal

TL;DR通过引入双线性分解的机制，将 Q-value 函数表示为两个向量场之间的点积形式，实现了在实现多目标强化学习过程中 Q-value 函数的优化，提高了数据效率和跨任务泛化能力。

Abstract

The dominant framework for off-policy multi-goal reinforcement learning involves estimating goal conditioned Q-value function. When learni

off-policy multi-goal reinforcement learning bilinear decomposition data efficiency

发现论文，激发创造

双线性类：在 RL 中可证明的泛化的结构化框架

引入了新的框架 Bilinear Classes，用于增强学习的泛化，适用于通过函数逼近实现多种模型，其中 Best Known Sample Complexity Bounds 几乎与现有模型相匹配。

Mar, 2021

二进制向量动作的 Q 网络

本文研究了具有二元向量动作的强化学习问题，提出了一种用于逼近二元向量动作价值函数的神经网络有效架构，该架构可以使得基于贪心或 softmax 策略的动作选择可以进行高效计算，并基于 Q-learning 提出了一种在线算法，论文还给出了基于方格世界和块障碍任务的实证结果，表明提出的逼近架构可以在具有大量离散动作集的 RL 问题中取得良好的效果。

Dec, 2015

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

基于准度量学习的最优目标达成强化学习

本文介绍了一种新的强化学习（Reinforcement Learning）方法 ——Quasimetric Reinforcement Learning（QRL），该方法利用拟度量结构来学习最优值函数，与以往的方法不同，QRL 目标专门设计给拟度量，并提供了强有力的理论恢复保证。实证分析证明，相比于替代方案，QRL 在离线和在线目标达成基准测试中也表现出更好的样本效率和性能，在基于状态和基于图像的观察中都是如此。

Apr, 2023

重新思考强化学习中的值函数学习以实现泛化

本研究旨在训练多个视觉环境下的 RL 代理以提高观察泛化性能，并提出了一种延迟评论者策略梯度（DCPG）算法，该算法可以使用单一统一的网络架构来实现，极大地提高了 Procgen 基准测试的样本效率和观测泛化性能。

Oct, 2022

Qatten：一种用于协作多智能体强化学习的通用框架

本文提出了一种基于多头注意力机制和 Q-value 分解的深度多智能体强化学习算法和最大化算法，并在 StarCraft 基准测试中表现出国内领先的性能。

Feb, 2020

使用广义优势估计进行高维连续控制

本文探讨了如何使用深度神经网络和政策梯度方法，通过数值函数和置信区间优化解决了强化学习中大量样本和非稳定性问题，取得了在高难度 3D 运动任务中显著的实证结果。

Jun, 2015

使用卷积神经网络扩展强化学习中的全目标更新

通过卷积神经网络、全目标更新算法和距离图，替换具有随机行为的探索策略，能够在蒙特祖玛复仇和超级马里奥全明星游戏中产生更好的探索轨迹。

Oct, 2018

强化学习的编排价值映射

本文提出了一种以将价值估计映射到不同空间和将奖励信号线性分解为多个通道的方式作为基础的强化学习算法，具有收敛性和泛化性，并可以用于处理高度变化的奖励尺度和集成学习等任务。

Mar, 2022

政策评估网络

本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法，通过估计给定一组状态下多种策略的价值，实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明，该方法的理论和实际效果均优于传统方法。

Feb, 2020