离线强化学习中基于示例的最优订单界限与偏好反馈

ICMLJun, 2024

离线强化学习中基于示例的最优订单界限与偏好反馈

Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback

Zhirui Chen, Vincent Y. F. Tan

TL;DR我们提出了一种称为 RL-LOW 的算法，用于处理离线强化学习中的优化动作问题，针对偏好反馈情况下的线性未知参数隐式奖励，提出了实例相关的上下界并拓展到隐私保护设置。

Abstract

We consider offline reinforcement learning (RL) with preference feedback in which the implicit reward is a linear function of an unknown parameter. Given an offline dataset, our objective consists in ascertaining

offline reinforcement learning preference feedback simple regret rl-low privacy considerations

发现论文，激发创造

线性函数逼近离线强化学习的基于实例的上界

本研究提出了一种基于 Bootstrapped and Constrained Pessimistic Value Iteration 算法的离线强化学习方法，该算法结合数据自举、约束优化和悲观主义。在局部数据覆盖的假设下，该算法提供了一个快速率，即使在自适应采集的离线数据中，也能够实现绝对零的次优误差和 O（1 / K）的较低界限。

Nov, 2022

分布鲁棒离线强化学习的极小极大最优和计算高效算法

分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法，当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法，通过对线性参数化的模型进行实现，探索了实例依赖次优性分析在鲁棒离线强化学习中的应用，并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。

Mar, 2024

离线约束强化学习的低秩 MDP 原始 - 对偶算法

该论文提出了一种用于解决低秩 Markov 决策过程的离线强化学习算法，该算法在折扣无限时间段设置中具有较低的样本复杂度，且支持离线约束强化学习设置。

Feb, 2024

通过悲观主义实现最优离线强化学习

本文研究了离线强化学习问题，特别是针对有限时间视野 MDPs 的离线强化学习问题的采样效率问题，提出了自适应悲观值迭代算法，并推导了其次优性上界，推广到了无任何假设的情况下，并得到了无假设的本质学习下界，揭示了离线强化学习固有的根本限制。

Oct, 2021

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒 Catoni 平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性 MDP 设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021

通过随机化提高基于偏好反馈的强化学习的效率

这项研究介绍了一种利用人类反馈的强化学习算法，在线性 MDP 模型和非线性函数逼近模型下，通过随机化算法设计实现了高样本效率和多项式计算复杂度，并通过一种新颖的随机主动学习过程最小化了查询复杂度，同时在后者中取得了近乎最优的折衷结果。

Oct, 2023

使用函数逼近解决强化学习中重尾奖励问题：极小最优和实例相关遗憾界

本文提出了两个针对带有重尾奖励的强化学习问题的算法，分别是 extsc {Heavy-OFUL} 和 extsc {Heavy-LSVI-UCB}，并证明了它们在确定性和随机线性 bandits 的最劣情况下是最优的，同时通过一种新的鲁棒的自正规化集中不等式来实现优化。

Jun, 2023

可证明离线强化学习与人类反馈

研究离线强化学习中的难点问题，利用最大似然估计从离线数据中估计隐式奖励，并在 MLE 的置信区间内解决分布鲁棒规划问题，引入了新的单一策略浓缩系数测量。

May, 2023

分布鲁棒优化有效地解决离线强化学习问题

本文利用不确定性集来直接建模转移内核的不确定性，并采用分布稳健优化方法，通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。

May, 2023

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023