腐败鲁棒离线强化学习与人类反馈

Feb, 2024

腐败鲁棒离线强化学习与人类反馈

Corruption Robust Offline Reinforcement Learning with Human Feedback

Debmalya Mandal, Andi Nika, Parameswaran Kamalaruban, Adish Singla, Goran Radanović

TL;DR我们设计了一种新颖的对抗性鲁棒性离线强化学习方法，以处理具有不同数据生成分布覆盖假设的数据污染情况，通过学习奖励模型和置信区间，然后在置信区间内学习一个悲观的最优策略，实现了离线强化学习中具有可证明的数据污染鲁棒性的 RLHF 方法。

Abstract

We study data corruption robustness for reinforcement learning with human feedback (RLHF) in an →

data corruption robustness reinforcement learning offline setting corruption-robust rl

发现论文，激发创造

抗腐败离线强化学习

本文研究线性 MDP 环境下基于离线数据集的对抗鲁棒强化学习问题，提出并分析了罕见奖励污染情况下的最优区间，展示了由最优区间出发，直接针对初始化状态的改进算法；同时，我们指出该离线场景下普适的主动鲁棒化机制并不存在（例如动态调参等），并建议未来应着重于该问题的研究。

Jun, 2021

面向多样化数据损坏的鲁棒离线强化学习

离线强化学习中，数据损坏对性能的影响是一个重要问题，本研究通过实证和理论分析发现，隐式 Q 学习 (IQL) 表现出很强的抗数据损坏能力，其监督策略学习机制是关键因素之一。为解决 Q 函数在动力学方面受到的影响，研究引入鲁棒统计学和 Huber 损失函数来处理重尾数据，并利用分位数估计器平衡受损数据和学习稳定性，提出了一个更加鲁棒的离线强化学习方法，命名为鲁棒 IQL (RIQL)。大量实验表明，在各种数据损坏情况下，RIQL 表现出极高的鲁棒性能。

Oct, 2023

具有通用函数近似的反腐败离线强化学习

我们研究了离线强化学习中的腐败鲁棒性问题，提出了一种新的不确定性权重迭代方法来计算批处理样本，并设计了一种对腐败具有鲁棒性的离线强化学习算法。

Oct, 2023

来自损坏人类反馈的鲁棒强化学习

通过稀疏异常点建模，我们提出了一种健壮的增强学习训练方法 $R^3M$，可以从人类反馈数据中一致地学习出潜在的奖励和异常点，并且在偏好数据扰动方面表现出强鲁棒性。

Jun, 2024

可证明离线强化学习与人类反馈

研究离线强化学习中的难点问题，利用最大似然估计从离线数据中估计隐式奖励，并在 MLE 的置信区间内解决分布鲁棒规划问题，引入了新的单一策略浓缩系数测量。

May, 2023

离线强化学习与人类反馈的部署

提出一种基于人类监督的强化学习在线部署框架，包含两种方法：一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署，二是在监督信号到达时在线微调模型。通过实证验证，这些方法有效地应用于机器人运动控制和交通信号控制任务中。

Mar, 2023

面向鲁棒性模型驱动增强学习抵御对抗性破坏

这项研究处理了模型驱动的强化学习中的对抗性损坏方面的挑战，其中转移动态可能会受到对手的损坏。通过引入最大似然估计方法来学习转移模型，我们提出了旨在解决联机和脱机设置中的对抗性损坏问题的算法，并证明了这些算法的性能和下界。据我们所知，这是关于具有可证明保证的对抗性损坏模型驱动的强化学习算法的首次研究。

Feb, 2024

腐败稳健的离线双人零和马尔可夫博弈

我们研究了线性马尔可夫游戏中离线两人零和游戏中的数据损坏鲁棒性问题，提出了鲁棒版本的悲观极小极大值迭代算法，并给出了关于 epsilon 的 (近) 最优次优性能界限。

Mar, 2024

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

使用离线数据的强化学习算法

该论文提出一种名为 RFQI 的稳健强化学习算法，使用离线数据集来优化策略，在标准条件下该算法能够学习到近乎最优的稳健策略，并且在标准基准测试问题上展现出卓越的性能表现。

Aug, 2022