超越乐观:具有部分可观察奖励的探索
研究了在Markov决策问题中,代理人通过在线凸规划算法设计非固定策略,以最大化全局凹奖励函数和矢量结果的均值,以解决多目标优化和Markov环境下的受限优化问题。
May, 2019
本论文提出了一种新的强化学习算法——乐观的Actor-Critic方法(OAC),通过在状态动作值函数上近似上限和下限的置信区间,实现了在探索性上的乐观及方向性采样,从而提高了算法对连续控制任务的采样效率。
Oct, 2019
本文提出了一种基于模型的加强学习算法(H-UCRL),通过加强其输入空间并直接使用先验不确定性来提高探索,使得优化策略时也能区分先验不确定性和先验确定性。同时,本文针对H-UCRL分析了一般的后悔界,并构建了一个在高斯过程模型下证明的可证明次线性的界,进而表明乐观探索可以轻松地与最先进的强化学习算法以及不同的概率模型相结合。实验表明,本文所提出的算法在已知惩罚的情况下可以显著加速学习,并且在现有的基于模型的加强学习算法中具有广泛的适用性。
Jun, 2020
本研究使用不打折扣的强化学习方法,针对马尔可夫决策过程中的漂移非稳定性问题,提出了Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening算法和Bandit-over-Reinforcement Learning算法,并证明了它们的动态后悔限制及其在参数不确定性情况下的适应性。
Jun, 2020
提出了一种无模型强化学习算法,由于乐观原则和最小二乘价值迭代算法的启示,通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索,在估计乐观值函数的同时引入了一种乐观的奖励采样过程,并证明了当数值函数可由函数类 \mathcal{F} 表示时,该算法实现了最坏情况下的遗憾度量边界,并在已知的难度探索任务上进行了实证评估。
Jun, 2021
本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题,并在MetaWorld基准测试的复杂机器人操作任务中证明了其有效性。
May, 2022
本研究提出了一种新的统一原理来实现信息寻求和奖励最大化,将主动推理与强化学习结合起来,不仅解决了各自的局限性,同时还具有超越传统方法的探索新颖奖励的性能。
Dec, 2022
我们研究了非时序强化学习(RL)的问题,其中系统动态未知,并且RL代理需要从单个轨迹中学习,即没有重置。我们提出了Nonepisodic Optimistic RL(NeoRL),这是一种基于乐观原则面对未知动态的方法。NeoRL使用经过良好校准的概率模型,并在对未知动态的认知不确定性方面进行乐观规划。在对系统连续性和有界能量的假设下,我们提供了第一个适用于具有高斯过程动态的一般非线性系统的遗憾边界为O(β_T√(TΓ_T))。我们将NeoRL与其他基准在几个深度RL环境上进行比较,并经验证明NeoRL实现了最佳平均成本,同时产生了最小的遗憾。
Jun, 2024
该研究解决了在机器人行为学习中缺乏有效探索策略的问题,提出了一种新的基于汤普森采样的乐观探索方法。研究表明,这种方法能够显著加速在稀疏奖励和探索困难区域的学习过程,强调了模型不确定性在引导探索中的重要性。
Oct, 2024