超越乐观:具有部分可观察奖励的探索
该论文介绍了应用于部分可观测的情况下的强化学习模型,探讨了在一些特殊情况下该模型的使用,提出了一种通过乐观估计与极大似然估计相结合的简单算法,能够保证在这些特殊情况下有多项式样本复杂度可行的方法。
Apr, 2022
本文提供了一个基于 Lagrangian 对偶的一般性框架,用于设计、分析和实施当面临不确定性的时候的乐观加强学习算法,并证明了构建乐观 MDP 的模型乐观算法与价值乐观 DP 算法等价;此外,该框架还能够处理实现复杂的问题,并可以对最近提出的方法进行简单的数学建模。
Jul, 2020
本文着眼于使用基于信念的奖励机制进行深度强化学习,提出了通过最大化任何凸函数的信念来实现近似的预测奖励,为深度强化学习的应用提供了新的解决方案,包括构建跟踪人员的传感器选择系统和学习时尚 MNIST 和 MNIST 数字分类的离散注意力模型等。
May, 2020
本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色,并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。
Oct, 2018
本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法,用于处理部分可观察环境下的控制系统策略生成,将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明,该方法在性能表现上优于六种当下的深度 RL 技术。
Jun, 2022
通过随机风险准则选择动作来避免一面倒的风险倾向的一种新型的分布式强化学习算法,证明了该方法的收敛性和最优性,并实证显示该方法在包括 Atari 55 游戏在内的各种环境下优于其他现有的基于分布的算法。
Oct, 2023
本文研究了强化学习中的无奖励探索并设计了一种算法来提高其效率,该算法不需要提前了解奖励函数。算法最多需要采集 SAH^3/ε^2 个样本轨迹就能对于所有感兴趣的奖励函数找到 ε-optimal 策略,而且算法还能在样本量超过 S^2AH^3/ε^2 个轨迹时无限找到 ε-optimal 策略,即便这些奖励函数是对抗性设计的。
Apr, 2023
研究在强化学习中的探索和利用的权衡,通过解决探索感知标准来获得最优政策,结果是在表格和深度强化学习算法中应用简单变化并在离散和连续动作空间中,相对于非探索感知对应物表现出更好的性能。
Dec, 2018
强化学习从人类反馈中的过去分析假设人类完全观察能力。当人类反馈仅基于部分观察时会发生什么?我们正式定义了两种失败情况:欺骗和过度合理化。通过将人类建模为对轨迹的信念的 Boltzmann - 理性,我们证明了在什么条件下 RLHF 可以保证导致会欺骗地夸大其表现、过度合理化其行为或两者兼而有之。为了帮助解决这些问题,我们从数学上描述了环境的部分可观测性如何转化为学习回报函数中的(缺乏)模糊性。在某些情况下,考虑部分可观测性可以从理论上恢复回报函数和最优策略,而在其他情况下存在不可避免的模糊性。我们警告不要盲目将 RLHF 应用于部分可观测的环境,并提出研究方向以帮助应对这些挑战。
Feb, 2024