模型基深度强化学习算法框架及其理论保证
本文介绍了一种新的无模型算法,用于控制线性二次系统,利用reduce方法,将马尔科夫决策过程的控制问题转化为专家预测问题,该算法实现简单通用,拥有多项理论保证和良好的性能。
Apr, 2018
本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基RL,证明了探索具有贪心策略可以实现紧密的极小极大性能,从而完全避免使用full-planning,而复杂度降为S,并通过实时动态规划进行了新颖的分析。
May, 2019
本文提出了一种基于模型的加强学习算法(H-UCRL),通过加强其输入空间并直接使用先验不确定性来提高探索,使得优化策略时也能区分先验不确定性和先验确定性。同时,本文针对H-UCRL分析了一般的后悔界,并构建了一个在高斯过程模型下证明的可证明次线性的界,进而表明乐观探索可以轻松地与最先进的强化学习算法以及不同的概率模型相结合。实验表明,本文所提出的算法在已知惩罚的情况下可以显著加速学习,并且在现有的基于模型的加强学习算法中具有广泛的适用性。
Jun, 2020
本篇论文介绍了一种基于模型的适应性离散技术,在大型(潜在连续的)状态-动作空间中设计一种高效的基于情节的强化学习算法,并通过实验证明,该算法在收敛速度和存储空间利用效率方面显著优于固定离散化。
Jul, 2020
提出了一种基于模型的强化学习算法的性能保证方法,引入了一个受约束的下界优化问题,采用了事件触发机制,从而克服了模型更新对性能的影响,并在实验中证明了该方法的有效性。
Oct, 2022
本文提出了一种称为Optimistic NPG的简单高效策略优化框架,该框架的样本复杂度具有最优的维度依赖性,可以高效地学习线性MDP和函数逼近下的最优策略。
May, 2023
分布式鲁棒强化学习提出了一种模型自由的算法,利用多级蒙特卡洛技术来优化最坏情况性能,解决了以往模型自由的算法在收敛保证和样本复杂度方面的限制,并提供了三种不确定性情况下的有限样本分析,从而实现了分布式鲁棒强化学习的模型自由方法的复杂度最优结果,突出了算法的效果与效率,凸显其在实际应用中的潜力。
Jun, 2024
本研究解决了强化学习算法在超参数选择上的敏感性,特别是学习率设置不当导致的收敛失败问题。提出了一种无学习率强化学习的模型选择框架,通过实时选择最佳学习率来提高算法性能。实验结果表明,在超参数的最优选择是时间依赖且非平稳时,数据驱动的模型选择算法优于传统的强盗算法。
Aug, 2024
本研究解决了基于模型的强化学习在在线与离线设置中的悔恨与样本复杂度界限的问题。通过引入乐观与悲观规划程序,在简单的模型学习框架下,我们实现了无地平线和二阶界限的强悔恨分析。我们的算法简洁且标准,能够有效利用丰富的函数逼近能力,具有重要的理论与实际应用价值。
Aug, 2024