基于偏好的主动查询的情境强化学习和模仿学习

Jul, 2023

基于偏好的主动查询的情境强化学习和模仿学习

Contextual Bandits and Imitation Learning via Preference-Based Active Queries

Ayush Sekhari, Karthik Sridharan, Wen Sun, Runzhe Wu

TL;DR我们考虑上下文强化学习和模仿学习中的问题，学习者缺乏执行动作奖励的直接知识，但可以主动查询专家以比较两个动作并获得嘈杂的偏好反馈。本文提供一种算法，利用在线回归预测与函数类相关，在选择动作和决定何时查询时达到最小后悔和最小查询的目标。该算法不要求最优动作与任何子优动作在所有情境下的最小偏好知识，并且获得的后悔界限与标准上下文强化学习中观察到的奖励信号相当。此外，该算法对专家的查询次数仅为O(min{T,d^2/Δ^2})。我们还将算法扩展到模仿学习中，在每个长度为H的回合中，学习代理在未知环境中进行交互，并对后悔和查询复杂度提供类似的保证。有趣的是，我们的模仿学习算法甚至可以在专家表现不佳时超越其性能，凸显了基于偏好反馈在模仿学习中的实际优势。

Abstract

We consider the problem of contextual bandits and imitation learning, where the learner lacks direct knowledge of the executed action's reward. Instead, the learner can actively query an expert at each round to c

发现论文，激发创造

上下文臂针对高效优化学习

本文介绍了一种在线学习算法，它使用了一种基于代价敏感分类器的方法，并实现了最优遗憾率，与之前的算法相比，具有指数级别的运行速度优势，并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。

Jun, 2011

可预测奖励的情境决策学习

本研究探讨了一种基于可实现性假设下的上下文强化学习问题，并提出了一种新算法——回归器消除，证明了其在保证可实现性前提下，也具有与不可实现性假设情况相似的遗憾率；同时在任意一组策略的情况下，我们证明了本算法具有恒定遗憾，相对于之前的方法而言。

Feb, 2012

驯服怪兽：一种快速简单的上下文赌博算法

本文提出了一种在线学习算法，具有上下文匹配学习问题中的统计最优保证，并通过少量的机器学习调用来完成，而且在性能方面非常优秀。

Feb, 2014

通过交互无悔学习实现强化学习和模仿学习

通过交互式学习和无悔在线学习的分析方法，本文扩展了现有结果，发展了利用成本信息的交互式模仿学习方法，并将该技术扩展到应对强化学习，提供了对在线近似策略迭代成功的理论支持，建议了一系列新的算法，并提供了对模仿学习和强化学习现有技术的统一视角。

Jun, 2014

具有连续动作的上下文臂机：平滑、缩放和自适应

研究了一个抽象策略类和连续动作空间下的情境赌博学习，得到了与平滑策略类竞争以及要求标准Lipschitz条件的两个不同的遗憾界限。同时，我们研究了适应未知平滑参数的问题，建立了可适应性的代价，并推导出需要额外信息的最优自适应算法。

Feb, 2019

基于不同实例的情境臂和强化学习复杂度：一种基于反对的视角

该研究提出了一种用于上下文Bandit问题的复杂度度量方法，展示了其与最优实例相关遗憾的关系，并给出了新的算法来实现当存在一个最优选择时能够分辨性地进行探索。同时，该研究还在采用函数近似的强化学习问题上提出了新的算法，达到了优化的样本规模。

Oct, 2020

具有平滑遗憾的情境臂控算法：连续行动空间高效学习

提出了一种平滑遗憾函数的背景自适应算法，可用于大量或连续动作空间下的通用背景自适应问题，并能适应各种光滑度级别的问题，取得了先前优化遗憾函数的最优性保证。

Jul, 2022

通过在线回归进行选择性采样和模仿学习

本文提出了一种应用选择性抽样的交互式算法，可用于通过主动查询具有噪声的专家反馈实现模仿学习，并提供了关于后者的新算法，同时证明了该算法的后悔和查询复杂度在一定的理论范围内得到优化。

Jul, 2023

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

通过积极查询进行人类反馈强化学习

提出了一种基于主动学习的RLHF方法，通过半数查询获得与最先进的DPO方法相当的性能。

Feb, 2024