元强化学习中的测试时后悔最小化

Jun, 2024

元强化学习中的测试时后悔最小化

Test-Time Regret Minimization in Meta Reinforcement Learning

Mirco Mutti, Aviv Tamar

TL;DR元强化学习，遗憾最小化，马尔可夫决策过程，测试时间遗憾，快速速率

Abstract

meta reinforcement learning sets a distribution over a set of tasks on which the agent can train at will, then is asked to learn an optimal policy for any test task efficiently. In this paper, we consider a finite set of tasks modeled through →

meta reinforcement learning regret minimization markov decision processes test-time regret fast rates

发现论文，激发创造

对抗性在线多任务强化学习

在此篇文章中，我们考虑对抗性在线多任务强化学习设置，每一次多任务中学习者需要在未知的有限数量 K 的 MDP 模型中，在有限的时间内学习到最优策略并减小遗憾值。我们提出了一种将模型从众多任务中分离开来的方法，并证明了任意学习算法的遗憾下界为 Ω(K√DSAH) 和一类均匀 - 好的聚类 - 学习算法的样本复杂度下界为 Ω(K/λ²)。最后，我们提出了一种算法，通过聚类阶段的规定数量和学习阶段的学习率，获得了与 K 和 λ² 的相关性最优的样本复杂度保证和遗憾保证。

Jan, 2023

顺序任务设置中最小化局部遗憾的谬误

强化学习中，研究任务间具有变化时，通过最小化后悔累积可以实现更好的结果，即在每个任务中过度探索，尤其在任务之间出现重大变化时。

Mar, 2024

突破样本复杂度障碍，实现后悔优化的无模型强化学习

通过引入方差缩减策略，设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题，该算法的空间复杂度为 $ O (SAH)$，较以前的算法提高了 $S^5A^3$ 倍的效率。

Oct, 2021

简单后悔最小化的元学习

一个 meta-learning 框架有效的解决了 bandit 任务中的 regret minimization 问题，提出了贝叶斯和频率主义算法，评估了不同的环境。

Feb, 2022

基于模型的强化学习中贪心策略的严格遗憾界

本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基 RL，证明了探索具有贪心策略可以实现紧密的极小极大性能，从而完全避免使用 full-planning，而复杂度降为 S，并通过实时动态规划进行了新颖的分析。

May, 2019

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒 Catoni 平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性 MDP 设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021

基于模型的对抗元强化学习

本文提出了一种基于模型的对抗元强化学习算法 (Model-based Adversarial Meta-Reinforcement Learning)，通过最小化所有任务中最劣情况的次优差异 (sub-optimality gap)，以及使用最大化次优性策略的对抗任务找到最优策略，以提高元强化学习算法在任务分布变化下的泛化能力和性能效率，试验表明该算法具有优异性能。

Jun, 2020

潜在 MDPs 的强化学习：遗憾保证和下界

在本文中，我们考虑了隐式马尔科夫决策过程中强化学习的遗憾最小化问题，我们提出了一个具有局部保证的有效算法，以解决这个问题。

Feb, 2021

用最优后悔学习在度量空间中控制

探讨了针对具有任意状态和动作空间的有限时间确定性控制系统的在线强化学习问题，提出了一种基于上置信强化学习的 Q 函数的乐观估计算法，证明了算法的性能界限和下界。

May, 2019

基于无界时间跨度和方差的隐含马尔可夫决策过程强化学习

本文研究基于后知的上下文中的潜在马尔可夫决策过程（LMDPs）的强化学习中的遗憾最小化问题，设计了一种新的基于模型的算法框架，证明了具有一定时间复杂度的遗憾上限。

Oct, 2022