分布式离线增强学习的通信复杂度问题

Feb, 2022

分布式离线增强学习的通信复杂度问题

Settling the Communication Complexity for Distributed Offline Reinforcement Learning

Juliusz Krysztof Ziomek, Jun Wang, Yaodong Yang

TL;DR探讨了一种新颖的离线强化学习设置，其中多台分布式机器共同合作解决问题，但只允许一轮通讯，并且总信息传输量受到预算限制。对于上下文平滑贝叶斯推断、拟合普通线性模型和高斯过程这些问题，在信息论上建立了分布式统计估计器的最小max风险下限，同时提出了一种基于最小二乘估计和蒙特卡罗返回估计的学习算法，并证明它们可以实现最优风险，从而使得分布式离线RL算法达到最小max下限，此外，还证明了时间差异无法在单轮通讯环境中有效地利用所有可用设备的信息。

Abstract

We study a novel setting in offline reinforcement learning (RL) where a number of distributed machines jointly cooperate to solve the problem but only one single round of communication is allowed and there is a b

发现论文，激发创造

基于不同实例的情境臂和强化学习复杂度：一种基于反对的视角

该研究提出了一种用于上下文Bandit问题的复杂度度量方法，展示了其与最优实例相关遗憾的关系，并给出了新的算法来实现当存在一个最优选择时能够分辨性地进行探索。同时，该研究还在采用函数近似的强化学习问题上提出了新的算法，达到了优化的样本规模。

Oct, 2020

悲观策略在离线强化学习中能被证明是高效的吗？

本文提出了一种悲观的价值迭代算法（PEVI），它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题，并在泛化情况下对其次优性建立了数据相关的上限。

Dec, 2020

离线神经情境臂: 悲观、优化和泛化

本文研究如何使用神经网络函数逼近优化离线上下文强化学习策略，提出了一种无需对奖励函数进行函数假设的离线上下文强化学习算法，应用随机梯度下降进行在线学习提高计算效率，并表明该方法具有较好的泛化能力和更好的依赖于神经网络的有效维度，同时在一系列的合成和实际问题中表现出了很好的效果。

Nov, 2021

模型基节流离线强化学习的样本复杂度研究

本文提出了一种无需进一步探索的离线强化学习方法，通过精心设计的模型实现了最优的样本复杂度，适合处理数据分布转移和数据覆盖范围受限的情况。

Apr, 2022

线性函数逼近下的近似极小极大离线强化学习：单智能体MDP和马尔科夫博弈

本文提出了一种基于悲观主义的离线线性MDP算法，核心是使用参考函数进行不确定性分解并利用理论分析证明，该算法可以匹配性能下限并且该技术可以扩展到两人零和马尔可夫博弈，验证了算法的极小极大最优性。这是目前关于使用线性函数逼近的单智能体MDPs和MGs的第一个有效的极小极大最优算法。

May, 2022

利用离线数据进行在线强化学习

本文考虑了具有线性结构的MDPs的FineTuneRL设置，并开发了一种称为FTPedel的算法，用于结合脱机数据和在线RL以改进学习表现，结果证明了在线样本数的必要性以及在线RL和脱机数据结合的优越性，突出了在线RL和脱机RL之间的区别。

Nov, 2022

线性函数逼近离线强化学习的基于实例的上界

本研究提出了一种基于Bootstrapped and Constrained Pessimistic Value Iteration算法的离线强化学习方法，该算法结合数据自举、约束优化和悲观主义。在局部数据覆盖的假设下，该算法提供了一个快速率，即使在自适应采集的离线数据中，也能够实现绝对零的次优误差和O（1 / K）的较低界限。

Nov, 2022

离线强化学习中的选择性不确定性传播

研究了有限时间内的离线强化学习问题，提出了一种基于动作影响估计的算法，可在统计上简单实例上胜过传统的悲观方法。

Feb, 2023

在线强化学习的样本复杂度界定

在线强化学习中的数据效率是一个核心问题，本文针对有限时间不均匀马尔可夫决策过程，证明了一种修改版的单调值传播算法在理论上达到了最小化遗憾度的最优性，并且没有任何预烧成本，其样本复杂度也是最优的。

Jul, 2023

分布鲁棒离线强化学习的极小极大最优和计算高效算法

分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法，当面对大规模状态-动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法，通过对线性参数化的模型进行实现，探索了实例依赖次优性分析在鲁棒离线强化学习中的应用，并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。

Mar, 2024