深度强化学习的多元先验

Oct, 2023

Diverse Priors for Deep Reinforcement Learning

Chenfan Weng, Zhongguo Li

TL;DR在强化学习中，代理人旨在最大化累积奖励，面临利用现有知识获取奖励或寻求潜在更高奖励的开发与探索困境。我们引入了一种创新方法，通过精心设计的先验 NNs，在强化学习的初始值函数中引入最大多样性，以解决常规集成型不确定性估计的问题。相比于随机先验方法，我们的方法在解决经典控制问题和一般性探索任务中表现出优越的性能，显著提高样本效率。

Abstract

In reinforcement learning (RL), agents aim at maximizing cumulative rewards in a given environment. During the learning process, RL agents face the dilemma of exploitation and exploration: leveraging existing kno

reinforcement learning exploitation and exploration uncertainty estimation ensemble-based methods prior nns

发现论文，激发创造

深度强化学习的随机化先验函数

本文讨论强化学习中的不确定性估计问题，为解决序列决策问题提出了一种随机不可训练 “先验” 网络的方法。实验证明该方法对于线性和非线性表示方法均有效，并且相较之前的尝试在大规模问题上表现更佳。

Jun, 2018

通过不确定性估计实现高样本利用率的深度强化学习

本文提出了一种名为逆方差强化学习的贝叶斯框架，结合概率一致集和批次逆方差加权，采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响，从而显著提高了离散和连续控制任务的样本效率。

Jan, 2022

深度强化学习中的风险和不确定性估计

提出了一个框架，通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的 aleatoric 不确定性，并引入一种考虑不确定性的 DQN 算法，该算法表现出安全的学习行为，并在 MinAtar 测试中表现出优越性能。

May, 2019

用噪声替换先验提高自举 DQN 的多样性

通过从高斯分布中采样引入噪音，本研究探讨了用噪声替换先验知识来增加 Bootstrapped Deep Q-Learning 中多样性的可能性，并在 Atari 基准上实验，将该算法与原始算法及其他相关算法进行了比较，结果表明该修改方案显著提高了模型的评估分数，保证了多样性的完整性。

Mar, 2022

语言奖励模型的不确定性估计

该论文探讨了利用不确定性估计技术提高样本效率和鲁棒性的方法，其中提出了利用打包聚合技术训练奖励模型，但研究结果显示，集成主动学习并不比随机采样更有效。

Mar, 2022

基于偏好的强化学习中的探索奖励不确定性

本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题，并在 MetaWorld 基准测试的复杂机器人操作任务中证明了其有效性。

May, 2022

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

不确定性估计的整体学习：先验函数和自助法的优势

本文将探讨模型集成中两个重要因素 -- 先验函数和自助法 -- 的作用，提出了先验函数可以显著提高集成模型在输入上的预测能力且自助法可以在信号 - 噪声比变化时带来额外的好处。通过理论和实验结果，作者证明了这两个元素对于提高机器学习代理的表现和决策效果是必不可少的。

Jun, 2022

神经网络中学习表达先验的方法用于泛化和不确定性估计

本文提出了一种基于先验学习的新方法，用于提高深度神经网络的泛化和不确定性估计，该方法利用可伸缩和结构化的神经网络后验作为具有泛化保证的信息先验。我们的学习先验在大规模上提供了具有表现力的概率表征，可以看作是在 ImageNet 上预训练模型的贝叶斯对应物，并进一步产生非平凡的泛化界限。我们还将这个想法扩展到了一个连续学习的框架中，其中我们的先验的有利特性是可取的。我们的技术贡献是（1）Kronecker 积分和求和计算，以及（2）导出和优化可追踪的目标，从而导致改进的泛化边界。从实证上来说，我们详尽地展示了这种方法用于不确定性估计和泛化的有效性。

Jul, 2023

基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习

强化学习来自人类反馈（RLHF）作为一种有前途的方法，用于与大型语言模型（LLMs）对齐。然而，RLHF 中一个显著的挑战是过度优化，即在超过某个阈值后，追求更高的奖励会导致人类偏好的下降。为了减轻这个局限性，我们检视了现有 RLHF 方法中常用的 KL 正则化的弱点。为了增强奖励模型的不确定性量化能力，我们首先提出了多样化的低秩适应（LoRA）集成方法，通过最大化 LoRA 矩阵串联的核范数。然后，我们利用多样化奖励 LoRA 集合提供的奖励和不确定性来优化策略模型。基于两个真实人类偏好数据集的实验结果显示了多样化奖励 LoRA 集合在量化奖励不确定性方面的有效性。此外，UP-RLHF 中的不确定性正则化在减轻过度优化方面起到关键作用，从而提高整体性能。

Dec, 2023