介绍离线强化学习算法的研究及其面临的挑战,探讨现有方法的局限性并提出解决方案,概述该领域的最新应用及未来可能的研究方向。
May, 2020
本研究提出了一种新的离线强化学习代理,将基于奖励的勘探法的探索奖励从奖励中减去,以使策略保持在数据集的支持范围内,并连接该方法到对学习策略向数据集的普遍约束的正则化,通过基于变分自动编码器的预测误差的奖励进行实例化,证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。
Jun, 2021
本论文提出一个在线学习和离线学习技术的归一化分类法,总结了离线 RL 领域的最新算法突破和现有基准的特性和不足,并提供了对未来研究方向的展望。
Mar, 2022
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
Sep, 2021
通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据,在保持简单性的同时,最大限度地提高了运行效率,从而实现了与现有离线 RL 算法相当的性能。
本文研究离线强化学习在何种情况下可以胜过仅仅利用专家数据的行为克隆算法,结果表明:可以在特定的条件下,如稀疏奖励或嘈杂的数据源,现代离线学习方法可以显着地胜过行为克隆算法,尤其是在长期视野问题上,甚至比专家数据上的行为克隆算法更好。
Apr, 2022
该研究使用 DQN 重放数据集研究了离线强化学习,提出了随机集合混合(REM)算法以促进泛化,得到比经过完全训练的 DQN 代理更好的结果。这表明,针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。
Jul, 2019
该研究通过比较在线学习和离线学习等方法的泛化能力,引入离线学习泛化性能评估的新基准,并发现离线学习算法在新环境中的表现不如在线学习算法,而增加数据多样性能够提高离线学习算法在新环境中的性能。
Dec, 2023
本文考虑了具有线性结构的 MDPs 的 FineTuneRL 设置,并开发了一种称为 FTPedel 的算法,用于结合脱机数据和在线 RL 以改进学习表现,结果证明了在线样本数的必要性以及在线 RL 和脱机数据结合的优越性,突出了在线 RL 和脱机 RL 之间的区别。
Nov, 2022
该研究综述了利用离线强化学习应对推荐系统中数据效率低下的问题,着重介绍了现有文献在该领域的研究成果,同时强调了该领域面临的挑战、机遇和未来研究方向。
Aug, 2023