高效的递归离策略强化学习需要一个上下文编码器特定的学习率
本研究提出了基于模型的离线强化学习算法 MOReL,具有模块化设计,可以用于模型生成、不确定性估计、规划等领域,实验结果表明,MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。
May, 2020
离线强化学习通过离线数据集学习顺序行为,但实际应用中离线和在线阶段的转换动力学常常变化,所以提出了一种利用残差学习推断离线解决方案输出的动力学变化的方法,在在线微调阶段通过训练上下文编码器来学习能在当前在线学习环境中保持一致且能预测动态转换的表示,实验证明该方法适应这种动态变化,并可以以高样本利用率的方式推广到未见过的扰动。
Jun, 2024
通过提出一种名为模型增强对比强化学习(MCRL)的新型强化学习推荐器,我们解决了离线数据集的稀疏性以及负反馈无法获取的问题,并通过对比学习来优化奖励函数和状态转移函数,实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。
Oct, 2023
使用递归卷积神经网络的值迭代,以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构,通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数,这是经典基于模型的 RL 的一种优秀替代方法。我们通过机器人规划问题的仿真来评估所提出的算法,并展示了我们框架降低重新规划成本、学习准确的 MDP 模型以及使用学习的模型重新规划以实现接近最优策略的能力。
Jan, 2017
本文研究了将实时递归学习和策略梯度相结合的演员 - 评论员方法在 DMLab、ProcGen 和 Atari-2600 环境中的应用,结果表明,在 DMLab 记忆任务中,我们的系统相比于训练了 10 B 帧的 IMPALA 和 R2D2 基线的系统,只需训练不到 1.2 B 个环境帧就能够达到很好的性能表现。
May, 2023
本文提出一种基于监督强化学习和循环神经网络的动态治疗建议系统,用于处理医疗记录中的复杂关系和部分观测问题,实验结果表明该系统能够有效减少患者死亡率和提高医疗建议的准确性。
Jul, 2018
本文介绍了离线元强化学习(OMRL)的上下文基础,特别是针对 OMRL 的任务表示学习问题。我们提出了一种硬采样的策略来学习一个强大的任务上下文编码器,实验结果表明,与基线方法相比,在多个不同的连续控制任务中,使用我们的技术可以得到更强壮的任务表示和更好的测试性能。
Apr, 2023
通过最大化互信息来提高任务表示能够实现性能的单调改善,其中,RETRO 算法重新调整任务表示偏移,从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。
May, 2024
这篇论文提出了一种引入储备计算的重放记忆方法,在这种方法中,使用多层神经网络作为读出层可以提高基于递归神经网络的强化学习在四种控制任务中的学习性能。
Mar, 2022