MetaCURL: 非平稳凹效用强化学习

May, 2024

MetaCURL: Non-stationary Concave Utility Reinforcement Learning

Bianca Marin Moreno, Margaux Brégère, Pierre Gaillard, Nadia Oudjane

TL;DR我们通过元算法和专家集成的方法在非平稳环境（变换的损失和概率转换）中探索在线学习在无环节马尔可夫决策过程中的应用，重点研究了处理凸性性能准则的经典强化学习的扩展问题 CURL。我们的方法能够在部分信息下，不需要先验的 MDP 更改知识，实现最优的动态遗憾，处理了全面对抗的损失而不仅仅是随机的。我们认为我们处理专家管理非平稳性的方法对强化学习社区具有一定的利益。

Abstract

We explore online learning in episodic loop-free markov decision processes on non-stationary environments (changing losses and probability transitions). Our focus is on the →

online learning episodic loop-free markov decision processes concave utility reinforcement learning metacurl non-stationary mdps

发现论文，激发创造

逆凹效用增强学习即逆博弈论

我们提出了新的逆反强化学习问题的理论框架，将 concave function 应用于 CURL，并创造性地将其等效于 mean-field games 的逆博弈理论问题，从而揭示了 CURL 问题与传统逆强化学习不同的特性和挑战。

May, 2024

凹形效用强化学习：均场博弈的视角

本研究介绍了基于凹效用函数的强化学习模型 CURL，它扩展了线性到凹效用，同时将模仿学习和探索等领域纳入范畴。该模型违反经典 Bellman 方程，需要新算法。本文通过证明 CURL 是 MFG 的子类，将两个社区联系了起来，并通过实验表明，最近为 MFG 解决问题引入的算法可以更有效地解决 CURL 问题。

Jun, 2021

PAC-Bayesian 无对照非监督表示学习

本文介绍了对无标签数据进行特征提取的一种技术 Contrastive unsupervised representation learning (CURL)，论文扩展了 Arora 等人 2019 年的工作，提出了 PAC-Bayesian generalization bounds 来处理非 iid 情况，并制定了一种新的表示学习算法，实验结果表明此算法具有不俗的精度和泛化性能。

Oct, 2019

CURL：强化学习中的对比无监督表示学习

本文提出了一种基于对比学习的无监督表征学习方法 CURL，其可以从原始像素中提取高层特征，并在此基础上进行偏置控制，在 DeepMind Control Suite 和 Atari Games 中均实现了比先前基于像素的方法更好的性能表现，在 10 万个环境交互和环境步骤基准测试中分别表现出了 1.9 倍和 1.2 倍的性能增益。在 DeepMind Control Suite 中，CURL 是第一个能够与使用基于状态特征的方法几乎匹配样本效率的基于图像的算法。我们的代码已开源，并可在此 https URL 下载。

Apr, 2020

非静态马尔科夫决策过程的强化学习：（更多）乐观的祝福

本研究使用不打折扣的强化学习方法，针对马尔可夫决策过程中的漂移非稳定性问题，提出了 Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening 算法和 Bandit-over-Reinforcement Learning 算法，并证明了它们的动态后悔限制及其在参数不确定性情况下的适应性。

Jun, 2020

周期性 MDP 中的在线强化学习

本文研究了周期马尔可夫决策过程中的学习问题，提出了一种基于上界置信区间的强化学习算法，证明了该算法的性能，在理论和经验层面上都表现出良好的效果。

Mar, 2023

持续无监督表征学习

本研究提出了一种名为 CURL 的方法，用于解决无监督的连续学习问题，通过学习动态的任务表示，以应对任务标识的缺乏，探索了任务之间的突然变化、平滑过渡和数据乱序等不同情况，并在 MNIST 和 Omniglot 数据集上证明了其强大性能。

Oct, 2019

在线马尔可夫决策过程中全局凸奖励的强化学习中的勘探利用权衡

研究了在 Markov 决策问题中，代理人通过在线凸规划算法设计非固定策略，以最大化全局凹奖励函数和矢量结果的均值，以解决多目标优化和 Markov 环境下的受限优化问题。

May, 2019

非平稳 MDPs 中的未来优化

本文介绍了一种名为 Prognosticator 的策略梯度算法，这种算法通过对政策性能的预测来主动搜索一个好的未来策略，并且通过将过去数据进行非均匀重新赋权，使该算法比其他两种在线适应技术更具鲁棒性。

May, 2020

超网络下的连续模型强化学习

通过使用任务条件超网络连续学习遇到的动态模型，HyperCRL 方法在机器人运动和操作任务中实现了连续模型基于强化学习，而不需要重新训练之前的任务，同时超越了现有的连续学习替代方法

Sep, 2020