发展第一个无需模拟器的模型自由算法,它在大型系统中实现次线性遗憾和次线性约束违规,并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。
Jun, 2022
该研究探讨了使用线性函数逼近的强化学习,提出了新的线性 MDP 假设,并通过实验证明了具有对最优行动价值函数的正增量的情况下可以获得对数后悔界限。
Nov, 2020
本文介绍了一种基于加权线性回归方案的计算有效算法,用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾,具有较好的效率,对参数化转换动态有良好的适应性,可以对研究领域进行更细致的探讨。
Dec, 2022
本文研究了在损失函数任意的情况下,对于线性近似的 Q 函数,提出了两种算法,可以在拥有模拟器的情况下使得损失最小值达到 $\tilde {\mathcal O}(\sqrt K)$,并在无模拟器情况下实现了 $ ilde {\mathcal O}(K^{8/9})$ 的表现,改进了之前的表现
Jan, 2023
本文研究基于模型的强化学习中的后悔最小化问题,提出一种基于乐观主义原则和线性混合模型的算法,并推导出一些后悔界的理论结果。
Jun, 2020
本研究基于鲁棒 Catoni 平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性 MDP 设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。
Dec, 2021
这篇研究采用线性函数逼近的方法来应用强化学习在马尔科夫决策过程中,通过衡量合适的指标来保证奖励和状态转移函数变化的幅度不超过一定的上限,提出了两种最优算法:LSVI-UCB-Restart 和 Ada-LSVI-UCB-Restart。该研究还为非平稳 MDP 和线性 MDP 提供了动态遗憾分析的理论支持,并进行了有效性验证。
Oct, 2020
提出了一种无模型强化学习算法,由于乐观原则和最小二乘价值迭代算法的启示,通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索,在估计乐观值函数的同时引入了一种乐观的奖励采样过程,并证明了当数值函数可由函数类 \mathcal {F} 表示时,该算法实现了最坏情况下的遗憾度量边界,并在已知的难度探索任务上进行了实证评估。
Jun, 2021
本文提出一种基于一般价值函数逼近的强化学习算法,目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似,该算法将实现后悔界,为实际中使用的算法提供一个框架来证明其有效性。
May, 2020
本文提出了第一个在基于线性动态和线性奖励时,具有多项式运行时间和样本复杂度的可证明的强化学习算法,该算法可以在不需要模拟器或其他假设的情况下实现,具有快速速度且与状态和动作数量无关。
Jul, 2019