通过知识危险寻优策略优化实现高效探索
本文介绍了一种基于偏爱函数的风险感知的增强学习框架,在不确定的环境下可以通过调节风险偏好参数实现风险规避,风险中性或风险承受。同时,作者使用动态规划和策略梯度算法来衡量和控制认知风险,并将风险规避策略与认知风险环境下的最优风险中性策略进行了比较分析。
Jun, 2019
本文提出了一种基于模型的加强学习算法(H-UCRL),通过加强其输入空间并直接使用先验不确定性来提高探索,使得优化策略时也能区分先验不确定性和先验确定性。同时,本文针对 H-UCRL 分析了一般的后悔界,并构建了一个在高斯过程模型下证明的可证明次线性的界,进而表明乐观探索可以轻松地与最先进的强化学习算法以及不同的概率模型相结合。实验表明,本文所提出的算法在已知惩罚的情况下可以显著加速学习,并且在现有的基于模型的加强学习算法中具有广泛的适用性。
Jun, 2020
本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本(OPPO),它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下,探索机制下的近似最优解,是第一种实现这一目标的算法。
Dec, 2019
通过提出一种新的探索策略,克服现有方法的局限性,即使奖励不总是可观察到,也能保证收敛到最佳策略。我们还提出了一系列用于在强化学习中进行探索的表格环境(有或没有不可观察的奖励),并展示我们的方法优于现有方法。
Jun, 2024
本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色,并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。
Oct, 2018
提出了一个学习框架,该框架使用两个算法与多层次结构的用户交互应用程序中的用户进行分组,以分别处理他们的不同探索风险容忍度,并研究了将 Pessimistic Value Iteration 作为利用算法的应用。
May, 2022
该研究展示了最有效的乐观程度可以随着任务和学习过程的不同而异。 启发于这一点,研究人员引入了一种新的深度演员 - 评论员框架,Tactical Optimistic and Pessimistic (TOP) 评估,它在线切换乐观和悲观的价值学习,并在解决像素环境的连续控制任务中创造了新的最优状态。
Feb, 2021
本文提出了一种称为 epistemic value estimation (EVE) 的方法,用于有效探索在强化学习中的问题,EVE 方法适用于序列决策以及神经网络函数逼近器,利用其可计算的参数的后验概率,能够有效地计算出 epistemic value uncertainty 这一不确定性,经实验验证 EVE 方法有助于在困难的探索任务中实现有效的探索。
Mar, 2023
为了在现实世界的系统中部署一种强化学习代理,必须对学习过程提供保证。我们研究了保守型探索问题,在此问题中,学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术,通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限,并且展示了在学习过程中从未违反保守约束条件的(高概率)证明。最后,我们利用这些见解,通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。
Dec, 2023