本论文从计算机科学的角度调查了强化学习领域,包括历史、现状和实践应用等方面,并重点探讨了强化学习中的中心问题,如平衡探索和利用、马尔可夫决策理论、延迟强化学习等。
May, 1996
本研究因 RL 作为推理方法的短处而对其进行澄清,RL 代理人必须考虑其行动对未来奖励和观察结果的影响,即探索和开发之间的权衡。我们证明了‘RL 作为推理’近似在基本问题中表现不佳,但我们展示了通过小修正该框架可以获得可靠的算法,该算法与最近提出的 K-learning 等价,我们进一步将其与汤普森取样联系起来。
Jan, 2020
通过结合模仿投影、数据集聚合和局部搜索启发式,我们提出了一种直接提取预训练神经策略的程序化策略的简单方法,该方法在编程问题和摆动问题上实现了可解释性和高效性。
Jan, 2022
传统上,强化学习集中于学习状态相关策略以解决闭环最优控制问题;本文提出了开环强化学习范式,通过学习固定行动序列,引入了三种新算法:一种鲁棒的基于模型的方法和两种高效的无模型方法。基于开环最优控制理论中的庞特里亚金原理,而非动态规划中的贝尔曼方程,我们提供了收敛性保证,并在振子摆起任务以及两个高维 MuJoCo 任务上通过实证评估展示了与现有基线方法相比显着的性能。
May, 2024
该论文提出一种新的元学习方法,可以通过与一组环境交互,发现一个包含价值函数和时间差分学习等元素的更新规则,从而得到一个名为 LPG 的 RL 算法,该方法可以发现自己对于价值函数的替代方案,并有效地推广到复杂的 Atari 游戏中。
Jul, 2020
本论文提出一种 MORL 的框架,通过程序合成技术实现对基于神经网络的黑箱模型深度强化学习策略的改进,得到符号表示形式,使其可以被手动或自动调试,经过行为克隆和梯度下降法的改进,不断迭代直到满足所需约束,在 CartPole 问题上的实例研究表明该方法能够进行高效的策略学习改进。
Jul, 2018
我们提出了一个控制论强化学习方法,用于直接学习最优策略,并在这个方法的一个特定实例基础上建立了理论性质,并导出了一个算法。我们的实证结果证明了我们方法的显著优势。
Jun, 2024
通过一个统一的基于策略的强化学习框架,在五种不同复杂度的连续控制环境中训练了超过 250000 个智能体,对强化学习的实现决策进行了大规模的实证研究,并提供了针对基于策略的训练推荐和技巧。
Jun, 2020
本文提供了一个应对强化学习的框架,解决了建模不确定性和计算成本高的问题,通过使用强化学习来解决随机动态规划方程,所得的强化学习控制器对多种类型的约束条件是安全的,并且可以主动学习建模不确定性,实现实时学习。通过模拟实例证明了提出方法的有效性。
Sep, 2023
本文提出了一种新的程序合成方法,将寻找最优程序的问题转化为基于强化学习的马尔科夫决策过程, 并将这种方法应用于浮点数 RISC-V 汇编语言的子集上,并结合基于搜索技术的优先搜索树,证明了我们的方法相较于其他基线方法的优越性
Jun, 2018