SQT - std Q-target | BriefGPT

Feb, 2024

SQT - std Q-target

\textit{SQT} -- \textit{std} $Q$-target

Nitsan Soffair, Dotan Di-Castro, Orly Avner, Shie Mannor

TL;DRStd Q-target 是一种保守的，基于单一关键的 Q 公式：Q 网络标准差，在强化学习中解决过高估计的偏见问题，我们将 SQT 应用于 TD3/TD7 代码并在七种常见的 MuJoCo 和 Bullet 任务上与最先进的 actor-critic 算法 DDPG，TD3 和 TD7 进行测试，结果表明 SQT 在所有任务上相比于 DDPG，TD3 和 TD7 具有明显的性能优势。

Abstract

\textit{Std} $Q$-target is a \textit{conservative}, actor-critic, ensemble, $Q$-learning-based algorithm, which is based on a single key $Q$-formula: $Q$-networks standard deviation, which is an "uncertainty pena

std q-target actor-critic ensemble overestimation bias rl

发现论文，激发创造

MinMaxMin Q 学习

MinMaxMin 是一种乐观的 Actor-Critic 算法，通过优先级经验回放的方式解决保守的强化学习算法中存在的过高估计偏差问题，实验证明 MinMaxMin 在所有测试任务中相比 DDPG、TD3 和 TD7 都能显著提高性能。

Feb, 2024

保守的 DDPG -- 无需集成的悲观强化学习

DDPG 面临过度估计偏差问题，而传统解决方法涉及到需要大量计算资源的基于集成的方法或难以理解和实现的复杂对数策略方法。相比之下，我们提出了一种简单的解决方案，使用一个 $Q$-target 并结合行为克隆（BC）损失惩罚作为不确定性度量，这种解决方案可以在最小的代码实现中轻松使用，而无需集成。我们的实证结果强烈支持 Conservative DDPG 在各种 MuJoCo 和 Bullet 任务中相对于 DDPG 的优越性能，我们在所有评估任务中一致观察到更好的性能，甚至与 TD3 和 TD7 相比也表现出竞争力或更优越的性能，并且大大降低了计算需求。

Mar, 2024

用于无模型强化学习的多状态 TD 目标

提出了一种基于增强的多状态 TD 目标的完整的演员 - 评论家算法，该算法将回放缓冲区管理与深度确定性策略优化和软演员评论家相结合，实验结果表明采用 MSTD 目标的算法相比传统方法显著提高了学习性能。

May, 2024

迁移 Q-Star：面向 LLM 对齐的原理解码

利用转移学习方法的 Transfer Q * 技术在最优 Q - 函数的缺失情况下，通过对齐基线奖励与基线模型来间接估计目标奖励的最优值函数，有效减小了先前方法中存在的次优解的差距，并在多个合成和真实数据集上证明了其卓越的实证性能。

May, 2024

目标 Q 学习关于使用生成式 Oracle 求解有限 MDPs 的说明

本文研究了利用目标网络解决深度强化学习 Q 学习算法在非目标策略情况下发散的问题，使用生成式神经模型研究了其样本复杂度，发现目标学习算法的样本复杂度是以 1-γ 为主导的，并且证明了引入周期性目标 Q 函数网络不会牺牲样本复杂度。

Mar, 2022

查询智能体：通过认知不确定性估计提高样本利用效率

本研究提出了一种名为 “Query The Agent (QTA)” 的新算法，它通过在状态空间中估计代理的认识不确定性并在高度不确定的区域中设定目标来显著提高样本效率。 QTA 利用一种名为 “Predictive Uncertainty Networks（PUN）” 的新技术来估计认知不确定性，以便在所有先前观察到的状态下对代理的不确定性进行评估。我们证明 QTA 相对于现有方法具有决定性的样本效率提高。

Oct, 2022

带有保守优势学习的同时双 Q 学习对演员 - 评论家方法的应用

该论文提出了 Simultaneous Double Q-learning with Conservative Advantage Learning (SDQ-CAL) 算法，用于改善 Actor-critic Reinforcement Learning 在连续控制任务中的样本效率和过度估计偏差问题，并在连续控制基准测试中实现了最先进的性能。

May, 2022

解耦的 Actor-Critic

我们提出了一种名为 Decoupled Actor-Critic（DAC）的离策略算法，通过梯度反向传播学习两个不同的演员：一个保守的演员用于时序差分学习，一个乐观的演员用于探索。在 DeepMind Control 任务中，DAC 在低和高回放比例的情况下，并结合了多个设计选择，取得了最新的表现和样本效率。

Oct, 2023

深度强化学习的自适应校准评论家评估

提出了一种称为适应性校准评论家 (ACC) 的方法，并将其应用于 Truncated Quantile Critics 中，实现了自适应调整参数，从而消除了低方差时间差分目标的偏差，并在 OpenAI gym 连续控制基准测试中取得了新的最佳成绩。

Nov, 2021

基于视觉感知的风险感知机器抓取的分位数 QT-Opt

本研究探讨利用分布式 Q-learning 算法的分布透视理论在连续状态空间下的应用，提出了一种新的基于分位数的 Q-learning 算法 Q2-Opt，成功应用于视觉机器人夹取任务，并探究了其风险扭曲函数，同时采用批量强化学习算法进行实验，与以往变量离散的实验结果对比，结果表明 Q2-Opt 在机器人夹取任务机器人夹取成功率上的表现更为优异。

Oct, 2019