通过跟踪每个可用行动价值的不确定性来研究针对强化学习智能体的定向探索,通过贝叶斯丢弃估计参数不确定性,通过钟形曲线的高斯分布传播来估计回报不确定性,并使用学习的分布直接推导策略。
Nov, 2017
研究在近似线性行动价值函数的情况下,基于低内在Bellman误差的探索问题,给出了一种算法,其高概率的遗憾上界与特征维数和Bellman误差有关,同时将其与先前的工作进行了比较,在线性MDP的情况下,证明了这个算法具有统计效率。
Feb, 2020
本文介绍了一种Bellman-consistent的悲观算法,在深度学习的数据集中使用较为普遍,通过对探索性场景的标准Bellman闭合性理论保证了算法的鲁棒性,并且在样本复杂度上比其他算法有显著提高。
Jun, 2021
本研究旨在探究基于熵风险度量的风险敏感强化学习,通过开发一种新的风险敏感反馈机制,使得监督过程能够更有效地引导智能体策略的改进,进而提升其性能表现。
Nov, 2021
提出了一种基于期望风险的探索算法,通过训练神经网络和优化策略使智能体具有探索未知状态的能力,在深度强化学习中表现出良好的性能。
Feb, 2023
在模型基强化学习中,我们考虑了如何量化累积奖励的不确定性,并提出了一种新的不确定Bellman方程来弥补现有工作的不足,该方法能够更准确地告诉我们此前探索的不足。实验表明,这种更精确的不确定性估计方法能够提高样本效率。
基于多臂赌博问题,通过引入调整的奖励项,考虑任务的难度,该研究提出的UCB^τ算法在全面的后悔和风险分析中被验证出具有理论上的强大性能,通过与标准UCB算法和Thompson Sampling算法在合成数据集上的比较评估,UCB^τ不仅在有效性上表现出色,而且在各种环境条件和超参数设置下具有更低的风险。
Oct, 2023
基于模型的强化学习中,我们考虑量化预期累积奖励的不确定性问题。我们提出了一个新的不确定性 Bellman 方程,其收敛到真实后验价值方差并在表格型探索问题中降低遗憾。我们鉴定了超越表格问题的应用挑战,并提出了相应的近似方法。基于这个近似,我们引入了一种通用的策略优化算法,Q-不确定性软 Actor-Critic(QU-SAC),可在风险追求或风险规避的策略优化中进行最小程度改动。在线与离线强化学习的实验结果表明相较于其他不确定性估计方法,性能得到了提升。
Dec, 2023
通过提出一种新的探索策略,克服现有方法的局限性,即使奖励不总是可观察到,也能保证收敛到最佳策略。我们还提出了一系列用于在强化学习中进行探索的表格环境(有或没有不可观察的奖励),并展示我们的方法优于现有方法。
Jun, 2024
本研究针对强化学习中探索问题的挑战,提出了一种新的体系结构,通过对贝尔曼误差进行稳定优化,以实现确定性探索策略。我们的方法不仅使用以前的经验来优化探索过程,还为探索目标引入了与试验长度无关的策略,从而在稠密和稀疏奖励环境中超越了传统的ε-greedy策略。
Oct, 2024