多任务赌博机和马尔可夫决策过程中的可证明通用函数类表示学习

May, 2022

多任务赌博机和马尔可夫决策过程中的可证明通用函数类表示学习

Provable General Function Class Representation Learning in Multitask Bandits and MDPs

Rui Lu, Andrew Zhao, Simon S. Du, Gao Huang

TL;DR本文提出一种通用的函数类上界置信界算法(GFUCB)，并首次就多任务表示学习在一般函数类情况下对于赌博机和线性MDP的效果进行了理论验证和实验探究。

Abstract

While multitask representation learning has become a popular approach in reinforcement learning (RL) to boost the sample efficiency, the theoretical understanding of why and how it works is still limited. Most pr

发现论文，激发创造

多任务强化学习中的共享表示学习

本文探讨了多任务强化学习中一种范例，即在一个固定的环境中进行一系列任务的学习，介绍了一种共享结构模型，在状态-动作值空间中联合学习优化价值函数，从而提高数据效率并获得更健壮、更具潜力的可传递表征。

Mar, 2016

线性赌博机和线性强化学习的近似最优表示学习

研究多任务线性臂和线性价值函数近似下的表示学习，并提出了一个可共享表示的算法，可在多任务和时间步数下实现更小的遗憾。

Feb, 2021

低秩MDP中无模型表示学习与探索

本文提出首个针对低秩MDP的无模型表示学习算法，该算法采用了新的极小极大表示学习目标，并将其与探索策略相互交织，以无奖惩的方式覆盖状态空间，从而具有可证明的样本效率和适应复杂环境的能力。

Feb, 2021

在线性情境下利用良好表示的策略性宝藏

本文针对线性语境劫掠问题，提出新的选择算法来适应多种线性表示方法，通过实验证明了我们算法的可行性和优越性。

Apr, 2021

线性MDPs中的强化学习: 常数遗憾和表示选择

研究在具有线性结构的有限时间马尔可夫决策过程（MDPs）中，状态-动作价值函数的表示在遗憾最小化中所扮演的角色，提出了普遍跨越最优特征（UNISOFT）的概念，证明当给定的表示满足UNISOFT条件时，提出的算法达到恒定的遗憾。

Oct, 2021

离线神经情境臂: 悲观、优化和泛化

本文研究如何使用神经网络函数逼近优化离线上下文强化学习策略，提出了一种无需对奖励函数进行函数假设的离线上下文强化学习算法，应用随机梯度下降进行在线学习提高计算效率，并表明该方法具有较好的泛化能力和更好的依赖于神经网络的有效维度，同时在一系列的合成和实际问题中表现出了很好的效果。

Nov, 2021

利用悲观主义充分利用方差信息的线性表示下近似最优离线强化学习

利用线性模型表示形式研究离线强化学习的统计学限制, 提出方差感知悲观值迭代算法, 重新权重贝尔曼残差以提高离线学习界限。

Mar, 2022

多任务表示学习在强化学习中的证明收益

本文首次从理论上研究了使用多任务表示学习来提高勘探性无奖励多任务强化学习中多个任务的样本效率，并证明了它比单独学习每个任务更加样本高效。此外，我们还研究了下游强化学习，并表明与直接学习低秩模型有所不同的是，从上游学习的表示更有利于下游强化学习。

Jun, 2022

强化学习中的模型选择与通用函数逼近

该研究考虑经典强化学习环境下的模型选择问题，提出了针对Multi Armed Bandits（MABs）和Markov Decision Processes（MDPs）的高效自适应模型选择算法，并证明了在假设类可分离的情况下，该算法的累积损失与正规则匹配。

Jul, 2022

通过函数编码器实现零样本强化学习

通过使用函数编码器来表示奖励函数或转换函数，学习代理机器人在运行时如何与先前的任务相关联的方法，并通过在强化学习算法中引入功能编码器任务表示来展示最先进的数据效率、渐近性能和训练稳定性。

Jan, 2024