本文论述的是如何在强化学习的算法中基于概率分布估算每个行动的信息价值,并选择能够平衡探索与利用的最佳行动。
Jan, 2013
基于模型的强化学习中,我们考虑量化预期累积奖励的不确定性问题。我们提出了一个新的不确定性 Bellman 方程,其收敛到真实后验价值方差并在表格型探索问题中降低遗憾。我们鉴定了超越表格问题的应用挑战,并提出了相应的近似方法。基于这个近似,我们引入了一种通用的策略优化算法,Q - 不确定性软 Actor-Critic(QU-SAC),可在风险追求或风险规避的策略优化中进行最小程度改动。在线与离线强化学习的实验结果表明相较于其他不确定性估计方法,性能得到了提升。
Dec, 2023
基于模型的贝叶斯强化学习视角,本研究旨在学习马尔科夫决策过程中基于参数(认知)不确定性引发的值函数后验分布的不确定性,通过引入一个 Bellman 算子,我们提出了 Epistemic Quantile-Regression (EQR) 算法,该算法学习了一个值函数分布,可用于策略优化,在几个连续控制任务中进行评估,表现优于已建立的基于模型和无模型算法。
Aug, 2023
在模型基强化学习中,我们考虑了如何量化累积奖励的不确定性,并提出了一种新的不确定 Bellman 方程来弥补现有工作的不足,该方法能够更准确地告诉我们此前探索的不足。实验表明,这种更精确的不确定性估计方法能够提高样本效率。
Feb, 2023
本文中,我们考虑了强化学习中的探索 / 利用问题,提出了不确定性 Bellman 方程 (UBE) 来扩展策略的潜在探索利益,并证明了该方程的唯一不动点产生的方差上限是由任何策略引起的 Q 值的后验分布,相较于传统的基于计数的奖励方法,它控制了方差,将 UBE 探索策略替换为 ε-greedy 可提高在 Atari 游戏中 DQN 性能的表现。
Sep, 2017
本文研究了有限时间 MDPs 中探索的最优性问题,提出了一种基于值迭代的乐观算法,其探索奖励基于下一个状态的经验值的变化量,通过使用集中不等式提高算法的可伸缩性,取得了优于先前最佳算法的研究成果,可以实现与已知理论下限相匹配的后悔度。
Mar, 2017
该研究针对马尔可夫决策过程中的无折扣强化学习问题提出了一种算法,并提供了针对最优非静态策略的性能保证。给出了在 MDP 总变差方面的差错的上限,这是一般强化学习设置的第一个变分差错界限。
May, 2019
本研究考虑了在未知的离散马尔科夫决策过程下,使用平均奖励准则的强化学习问题,其中学习者从一个初始状态开始,通过单个观察流与系统进行交互。我们提供了 KL-UCRL 算法的新分析,为该算法建立了高概率遗憾界,对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。
Mar, 2018
本研究基于鲁棒 Catoni 平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性 MDP 设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。
Dec, 2021
针对使用核回归时的强化学习问题,我们提出了一种乐观性的改进最小二乘法值迭代方法,我们证明了其在一般情况下具有一阶最优遗憾保证,其结果比现有技术有显着的多项式改进。
Jun, 2023