从不完美的人类反馈中学习：一次抗腐败对决的故事

May, 2024

从不完美的人类反馈中学习：一次抗腐败对决的故事

Learning from Imperfect Human Feedback: a Tale from Corruption-Robust Dueling

Yuwei Cheng, Fan Yao, Xuefeng Liu, Haifeng Xu

TL;DR研究论文探讨了从不完美人类反馈学习的问题，通过将人类反馈的不完美性视为对用户效用的不可知修正，提出了改进的对抗式竞争学习模型。通过证明最低遗憾下界并设计具有稳健性的梯度算法，揭示了在不同程度不完美的情况下，梯度算法在效率与稳健性间的平衡关系，并通过实验验证了其实际应用价值。

Abstract

This paper studies learning from imperfect human feedback (LIHF), motivated by humans' potential irrationality or imperfect perception of true preference. We revisit the classic dueling bandit problem as a model

learning from imperfect human feedback dueling bandit problem user utilities corruption regret lower bound

发现论文，激发创造

从对抗性反馈中的上下文对决强盗问题的近乎最优算法

通过创新性对抗反馈的鲁棒情境对决算法，本研究在学习人类反馈中探索大型语言模型的对齐方法，并证明了在存在或不存在创新性对抗反馈的情况下，算法具有接近最优的后悔界限。同时，在各种类型的创新性对抗反馈中，实验结果表明该算法优于现有的对决算法。

Apr, 2024

腐败鲁棒离线强化学习与人类反馈

我们设计了一种新颖的对抗性鲁棒性离线强化学习方法，以处理具有不同数据生成分布覆盖假设的数据污染情况，通过学习奖励模型和置信区间，然后在置信区间内学习一个悲观的最优策略，实现了离线强化学习中具有可证明的数据污染鲁棒性的 RLHF 方法。

Feb, 2024

连续对抗波段的遗憾分析

这篇研究论文提出了一个基于连续空间的成本函数的对决 Bandit 问题解决方案，介绍了一种随机镜像下降算法，并表明该算法在成本函数的强凸和平滑假设下实现了 O (sqrt (T log T)) 的遗憾界。此外，它还探讨了对决 Bandit 问题遗憾最小化与成本函数凸优化的等价性。

Nov, 2017

在线决策问题中关于对抗性破坏的最佳鲁棒性

论文研究了预测问题和多臂老虎机问题两个具有序列决策的基本问题。特别地，我们关注当对手可能篡改损失时的随机机制，并研究能够实现的鲁棒性水平。本文的主要贡献在于表明，最佳鲁棒性可以通过对所涉及的污染量的平方根依赖来表达。此外，我们还提供了下限，表明上述遗憾边界是紧的。最后，对于多臂老虎机问题，我们还提供了一个近似紧密的下限。

Sep, 2021

BanditQ -- 在对抗环境中具有保证的每个用户收益的无懊悔学习

本文提出一种在线学习算法 BanditQ，基于队列理论和在线学习相结合，实现公平在线预测，并在信息完整的情况下，达到目标约束，同时实现 $O (T^{3/4})$ 的损失率。

Apr, 2023

加权赌博机或：赌博机如何学习扭曲的非预期价值

文章研究在多臂老虎机问题中引入代价扭曲的概率分布，提出了一些算法，并证明了这些算法在一定条件下能够达到较好的效果，同时给出了相关的理论分析和数值模拟。

Nov, 2016

Dueling Bandit 问题的遗憾下限和最优算法

本文研究了 K-armed dueling bandit 问题，提出了一种受 Deterministic Minimum Empirical Divergence 算法启发的算法，并得到了匹配下界的后悔上界，实验结果表明该算法明显优于现有算法。

Jun, 2015

基于核函数的离线上下文对抗波动策略

在这项研究中，我们利用代理人能够选择获取人工反馈的上下文的事实，引入了离线情境对决贝叶斯臂设置，提出了一种基于上置信界的算法，并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。

Jul, 2023

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

在线强化学习是研究的主题之一，尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈，提出了两个算法以改善后悔性能。

Oct, 2023

除去偏见：针对对抗性赌博机和 MDPs 的高概率数据依赖性遗憾边界

发展了一种新的方法，使用标准无偏估计量，并依赖于简单的递增的学习速率表和对数单调自协调障碍以及加强的弗里德曼不等式，以获取高概率遗憾边界。

Jun, 2020