离线强化学习:教程、综述和对未解决问题的展望
本论文提出一个在线学习和离线学习技术的归一化分类法,总结了离线 RL 领域的最新算法突破和现有基准的特性和不足,并提供了对未来研究方向的展望。
Mar, 2022
此研究聚焦于离线强化学习,重点是离线学习方法的数据集属性和离线方法的成功相关性,实验证明离线 RL 的多样性和高回报的例子对于成功至关重要,并表明行为克隆仍然是竞争对手。
Nov, 2020
该研究综述了利用离线强化学习应对推荐系统中数据效率低下的问题,着重介绍了现有文献在该领域的研究成果,同时强调了该领域面临的挑战、机遇和未来研究方向。
Aug, 2023
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
Sep, 2021
本研究提出了一种简单的方法,利用离线数据来解决在线强化学习中的效率和探索性问题,通过对现有离线策略学习算法进行改进,得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。
Feb, 2023
本文对离线模型强化学习的最新工作进行了文献综述,其中介绍了离线强化学习和模型强化学习的概念和最新发展,讨论了两个领域的交叉点,并提出了未来工作的可能方向。研究了现有离线模型强化学习方法中遇到的主要问题 - 分布漂移,并展示了关键相关论文及其方法。
May, 2023
本研究提出了一种新的离线强化学习代理,将基于奖励的勘探法的探索奖励从奖励中减去,以使策略保持在数据集的支持范围内,并连接该方法到对学习策略向数据集的普遍约束的正则化,通过基于变分自动编码器的预测误差的奖励进行实例化,证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。
Jun, 2021
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023