离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。
Aug, 2023
通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据,在保持简单性的同时,最大限度地提高了运行效率,从而实现了与现有离线 RL 算法相当的性能。
Jun, 2021
本文提出了一种基于评价器正则化回归算法(CRR)的新型离线强化学习算法,它能够在高维状态和动作空间下解决固定数据集的离线学习问题,在广泛的基准任务上表现出优越性能。
Jun, 2020
本文介绍了如何使用序列建模来解决强化学习问题,使用 Transformer 架构来建模轨迹上的分布,并改造了波束搜索作为规划算法,在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性,同时将该方法与基于模型的算法相结合,使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。
本文介绍了一种离线强化学习的新方法 —— 图决策 Transformer(GDT)。GDT 将输入序列建模为因果图,以捕捉根本上不同概念之间的潜在依赖关系并促进时间和因果关系的学习。GDT 在图形输入处理中使用图形 Transformer,并在视觉任务中使用一个可选的序列 Transformer 来处理细粒度空间信息。实验表明,GDT 在基于图像的 Atari 和 OpenAI Gym 上的性能可以与最先进的离线强化学习方法相媲美或超越。
Mar, 2023
通过训练一个模型来从已知的目标状态开始进行逆向预测,将强化学习中的目标函数引入到代理中,从而加速训练过程,并在 Gridworld 和汉诺塔游戏中进行了实验验证。
Mar, 2018
通过世界转换器进行线下强化学习的离线轨迹泛化方法(OTTO)在 D4RL 基准数据集上验证了其相对于最先进的线下强化学习方法具有显著优势。
Apr, 2024
这篇论文介绍了一种基于循环神经网络的状态构建方法,提出了能够让实时递归学习可扩展的两个约束条件,并在基准测试和政策评估中证明了其有效性。
Jan, 2023
该论文研究了在在线环境中无需探索的情况下,从已记录的反馈中学习互动推荐系统的问题,并提出了一种通用的离线强化学习框架用于推荐,可以通过最大化累积用户奖励来解决问题。为了更有效地进行离线学习,我们提出了五种方法来最小化记录策略和推荐策略之间的分布不匹配:支持约束、监督正则化、策略约束、双重约束和奖励外推。我们在两个公开的现实世界数据集上进行了广泛的实验,证明了所提出的方法在推荐方面相对于现有的监督学习和强化学习方法具有优越的性能。
Oct, 2023
该研究通过比较在线学习和离线学习等方法的泛化能力,引入离线学习泛化性能评估的新基准,并发现离线学习算法在新环境中的表现不如在线学习算法,而增加数据多样性能够提高离线学习算法在新环境中的性能。
Dec, 2023