多项式逻辑函数近似的强化学习中的随机探索

May, 2024

多项式逻辑函数近似的强化学习中的随机探索

Randomized Exploration for Reinforcement Learning with Multinomial Logistic Function Approximation

Wooseong Cho, Taehyun Hwang, Joongkyu Lee, Min-hwan Oh

TL;DR我们研究了具有多项式逻辑（MNL）函数逼近的强化学习，其中马尔可夫决策过程（MDPs）的基础转移概率内核由具有状态和动作特性的未知转移核参数化。为了有非齐次状态转移的有限时段的情景，我们提出了具有频率后悔保证的随机探索算法，且具有可证明的高效性。

Abstract

We study reinforcement learning with multinomial logistic (MNL) function approximation where the underlying transition probability kernel of the Markov decision processes (MDPs) is parametrized by an unknown transition core with features of state and action. For the finite horizon epis

reinforcement learning mnl function approximation markov decision processes randomized exploration frequentist regret guarantees

发现论文，激发创造

基于模型的强化学习与多项式逻辑函数逼近

通过上界置信度算法，为状态转换由多项式逻辑模型给出的 MDP 建立可证明的高效强化学习算法，其信息瓶颈受到未知转换核的限制。实验表明该算法在实践中具有卓越的性能表现.

Dec, 2022

无限时间平均回报马尔科夫决策过程的强化学习与多项式逻辑函数逼近

我们研究了具有非线性函数逼近的基于模型的强化学习，其中底层马尔可夫决策过程（MDP）的转移函数由一个多项式逻辑模型给出。本文针对无限时间平均奖励设定，提出了两种算法。第一个算法 UCRL2-MNL 适用于通信 MDP 类，并实现了一种具有 (近似)Ο(dD√T) 的遗憾保证，其中 d 是特征映射的维数，D 是底层 MDP 的直径，T 是时间界。第二个算法 OVIFH-MNL 在计算上更有效，并适用于更一般的弱通信 MDP 类，我们展示了其具有 (近似)Ο(d^(2/5) sp (v^*) T^(4/5)) 的遗憾保证，其中 sp (v^*) 是相关最优偏差函数的散度。我们还证明了对于最大直径为 D 的可通信 MDP，学习具有 MNL 转移的复杂度的 Ω(d√(DT)) 的下界。此外，我们对于具有 MNL 函数逼近的 H - 时间界的情况，展示了 Ω(dH^(3/2)√K) 的遗憾下界，在这里 K 是序列的数量，该下界优于有限时间界设定的已知最佳下界。

Jun, 2024

线性马尔科夫决策过程的近最小值最大化强化学习

本文介绍了一种基于加权线性回归方案的计算有效算法，用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾，具有较好的效率，对参数化转换动态有良好的适应性，可以对研究领域进行更细致的探讨。

Dec, 2022

线性混合 Markov 决策过程的近最小极小化强化学习

本文研究了具有线性函数逼近的增强学习，其中马尔科夫决策过程（MDP）的潜在转移概率核心为线性混合模型，并且学习代理具有单个基础核函数的积分或采样神谕的访问。基于我们提出的新的 Bernstein 型自归一类化不等式，我们提出了一种名为 $ ext {UCRL-VTR}^{+}$ 的新的计算有效算法，以进行具有线性函数逼近的线性混合 MDPs 的无折扣情况。我们还提出了新的算法 $ ext {UCLK}^{+}$，适用于同一类 MDP 的折扣情况，这两种算法分别在最小化最大性上达到了近乎最小值，是线性函数逼近 RL 的第一篇计算有效性，近乎最小值的论文。

Dec, 2020

基于核和神经函数逼近的无奖励强化学习：单智能体马尔可夫决策过程和马尔可夫博弈

该研究针对强化学习中探索困境的问题，研究了无奖励的强化学习问题，提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法，证明了该方法可以在提供任意外界奖励的情况下，实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度，是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。

Oct, 2021

多项式逻辑回归赌博机的几乎极小极大后悔

本论文研究了上下文多项式逻辑（MNL）弃权问题，其中学习代理根据上下文信息顺序选择一组，用户反馈遵循 MNL 选择模型。我们在特征维度 d 和最大组合大小 K 之间发现了显著的遗憾下界差异，并且这些边界之间奖励结构的变化使得追求最优性变得复杂。在统一奖励下，我们建立了一个遗憾下界 $Omega (dsqrt {T/K})$，并提出了一个常数时间算法 OFU-MNL+，该算法达到了上下界 $tilde {O}(dsqrt {T/K})$。在非统一奖励下，我们证明了一个下界 $Omega (dsqrt {T})$ 和上界 $tilde {O}(dsqrt {T})$，OFU-MNL+ 也可以实现这一界限。我们的实证研究支持这些理论结果。据我们所知，这是 MNL 上下文弃权文献中首次证明鞍点最优性和提出实现这一最优性的计算高效算法，达到联合因子标量对数。

May, 2024

通过随机化提高基于偏好反馈的强化学习的效率

这项研究介绍了一种利用人类反馈的强化学习算法，在线性 MDP 模型和非线性函数逼近模型下，通过随机化算法设计实现了高样本效率和多项式计算复杂度，并通过一种新颖的随机主动学习过程最小化了查询复杂度，同时在后者中取得了近乎最优的折衷结果。

Oct, 2023

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022

线性混合 MDP 的高效无界强化学习算法

该研究论文提出了第一个计算高效、无横向界限算法，其中采用了加权最小二乘法，以用于未知状态转移动态的估算，并能够应用于异构线性 bandits 中，达到了比已知算法更优的效果。

May, 2022

线性函数逼近下的近似极小极大离线强化学习：单智能体 MDP 和马尔科夫博弈

本文提出了一种基于悲观主义的离线线性 MDP 算法，核心是使用参考函数进行不确定性分解并利用理论分析证明，该算法可以匹配性能下限并且该技术可以扩展到两人零和马尔可夫博弈，验证了算法的极小极大最优性。这是目前关于使用线性函数逼近的单智能体 MDPs 和 MGs 的第一个有效的极小极大最优算法。

May, 2022