强化学习中基于奖励偏置的最大似然估计

Nov, 2020

强化学习中基于奖励偏置的最大似然估计

Reward Biased Maximum Likelihood Estimation for Reinforcement Learning

Akshay Mete, Rahul Singh, Xi Liu, P. R. Kumar

TL;DR该研究提出了一种针对自适应控制的方法 - Reward-Biased Maximum Likelihood Estimate（RBMLE），旨在解决 Markov 链控制中的 “探索与开采问题” 和 “双控制问题”，同时在最优化参数时采用了一种新的乐观方法，该方法在各种情况下被证明是长期平均回报最优的，并在有限时间内具有与现有算法相当的抱怨。

Abstract

The Reward-Biased Maximum Likelihood Estimate (RBMLE) for adaptive control of markov chains was proposed to overcome the central obstacle of what is variously called the fundamental "closed-identifiability proble

adaptive control markov chains exploration vs. exploitation problem regret reinforcement learning

发现论文，激发创造

通过奖励偏置探索：针对随机多臂赌博机的奖励偏置最大似然估计

RBMLE 算法是一种针对随机多臂赌博机问题的学习算法，以奖励偏差最大似然估计法为基础，可以得到基于指数策略的解，同时它还能够适应性地估计未知参数，并在实验中表现优异。

Jul, 2019

基于价值偏差的最大似然估计在折扣线性 MDPs 中的模型驱动强化学习

我们提出使用基于反向传递最大似然估计的价值偏置方法来解决具有无限时间视角的线性马尔可夫决策过程，该方法在理论上证明具有几乎最优的遗憾，并且在计算上更高效，我们还发现线性马尔可夫决策过程和在线学习之间存在有趣的联系。

Oct, 2023

有限时段不静态多臂多动作赌博机的强化学习

本文研究的是带有多动作的有限时间不安定多臂赌博机问题，提出了一种可行的指数策略 Occupancy-Measured-Reward Index Policy 以及一种学习算法 R (MA)^2B-UCB，相比现有算法在遗憾和运算量等方面表现更佳。

Sep, 2021

乐观极大似然估计 —— 用于部分可观测序列决策的通用基于模型的算法

此研究介绍了一个简单高效的学习算法 OMLE，它结合了探索优化和极大似然估计，可在多项式数量的样本中学习当今已知的大多数可处理的强化学习问题，包括 POMDP 和 SAIL 条件下的普通顺序决策问题，并提供了一种奖励免费的近似动态模型学习方法。

Sep, 2022

基于模型的强化学习控制策略优化中的隐式微分技术

本文提出了一种端到端的方法，采用隐式微分直接优化期望回报，以求克服最大似然方法在模型不匹配或表示能力有限的情况下出现的缺点。具体来说，我们将一个满足模型引导的贝尔曼最优算符的值函数视为模型参数的隐函数，并展示了如何对该函数进行微分。理论和实证实验证明了该方法在模型失配情况下相对于基于最大似然方法的优势。

Jun, 2021

逆强化学习的最大似然约束推断

本文针对马可夫决策过程上的反向强化学习问题，即通过一个环境模型以及一个奖励函数，推断出状态、行动、和特征限制，以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵 IRL 的方法，并提出了一个迭代算法，以最大似然的方式推断最佳的约束条件，同时通过仿真实验和现实数据验证了其有效性。

Sep, 2019

基于成对或 K 个比较的人类反馈的有原则强化学习

我们提供了一个针对具有人类反馈的强化学习 (RLHF) 的理论框架。通过分析我们发现当真实奖励函数是线性的时候，最大似然估计器 (MLE) 在 Bradley-Terry-Luce (BTL) 模型和 Plackett-Luce (PL) 模型下都能收敛。然而，我们表明，在基于学习的奖赏模型的策略时，MLE 失败，而一种悲观的 MLE 在某些涵盖假设下提供了改进的性能策略。此外，我们证明在 PL 模型下，真实 MLE 和一个将 K 路比较分成两两比较的替代 MLE 都会收敛。此外，真实 MLE 渐近地更有效。我们的结果验证了现有 RLHF 算法在 InstructGPT 上的实证成功，并为算法设计提供了新的见解。此外，我们的结果统一了 RLHF 问题和 max-entropy Inverse Reinforcement Learning (IRL) 问题，并为 max-entropy IRL 提供了第一个样本复杂度上界。

Jan, 2023

基于方差的奖励函数用于近似贝叶斯强化学习

提出了一种基于后验概率分布的奖励加成方法，用于在 Bayesian RL 中解决探索与利用之间的困境，实现高效且有效的探索，能够利用结构化的先验知识，并证明其具有多项式样本复杂度。

Mar, 2012

具有马尔可夫回报的多臂赌博机问题的在线算法

考虑带 Markov 奖励的经典多臂赌博机问题，玩一只手臂时，其状态会按 Markov 方式更改，不玩时保持冻结。玩一只手臂时，玩家会获得与状态相关的奖励，每只手臂的状态转移概率未知。我们证明在手臂的状态转移概率满足一定条件下，基于样本均值的指数策略能够在总试验次数上实现对数遗憾，同时也证明了在具有休息的 Markov 赌博机模型下，样本均值指数策略不会降低最优性。此外，对比 Anantharam 的指数策略和 UCB，我们发现通过选择一个小的探索参数 UCB 可以比 Anantharam 的指数策略拥有更小的遗憾。

Jul, 2010

有界风险敏感的马尔可夫博弈：基于迭代推理和累计前景理论的前向策略设计和逆向奖励学习

本文针对多智能体系统的一些强理性假设提出了一种基于受限风险感知的马尔可夫博弈（BRSMG）的正向策略设计和逆向奖励学习算法，并通过导航场景验证了算法表现优异，该算法可以恰当地建模人类行为。

Sep, 2020