高效的递归离策略强化学习需要一个上下文编码器特定的学习率

May, 2024

高效的递归离策略强化学习需要一个上下文编码器特定的学习率

Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate

Fan-Ming Luo, Zuolin Tu, Zefang Huang, Yang Yu

TL;DR使用一种称为 RESeL 的方法改善了循环强化学习（RL）中的训练稳定性问题，并在部分可观察的决策任务中获得了显著的性能改进。

Abstract

Real-world decision-making tasks are usually partially observable Markov decision processes (POMDPs), where the state is not fully observable. Recent progress has demonstrated that recurrent reinforcement learning

markov decision processes partially observable recurrent reinforcement learning context encoder off-policy rl

发现论文，激发创造

MOReL：基于模型的离线强化学习

本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。

May, 2020

自适应离线到在线强化学习的剩余学习和上下文编码

离线强化学习通过离线数据集学习顺序行为，但实际应用中离线和在线阶段的转换动力学常常变化，所以提出了一种利用残差学习推断离线解决方案输出的动力学变化的方法，在在线微调阶段通过训练上下文编码器来学习能在当前在线学习环境中保持一致且能预测动态转换的表示，实验证明该方法适应这种动态变化，并可以以高样本利用率的方式推广到未见过的扰动。

Jun, 2024

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

基于递归卷积神经网络的强化学习

使用递归卷积神经网络的值迭代，以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构，通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数，这是经典基于模型的 RL 的一种优秀替代方法。我们通过机器人规划问题的仿真来评估所提出的算法，并展示了我们框架降低重新规划成本、学习准确的 MDP 模型以及使用学习的模型重新规划以实现接近最优策略的能力。

Jan, 2017

探索实时循环学习的优缺点

本文研究了将实时递归学习和策略梯度相结合的演员 - 评论员方法在 DMLab、ProcGen 和 Atari-2600 环境中的应用，结果表明，在 DMLab 记忆任务中，我们的系统相比于训练了 10 B 帧的 IMPALA 和 R2D2 基线的系统，只需训练不到 1.2 B 个环境帧就能够达到很好的性能表现。

May, 2023

基于循环神经网络的监督增强学习在动态治疗推荐中的应用

本文提出一种基于监督强化学习和循环神经网络的动态治疗建议系统，用于处理医疗记录中的复杂关系和部分观测问题，实验结果表明该系统能够有效减少患者死亡率和提高医疗建议的准确性。

Jul, 2018

论离线元强化学习任务表示学习中的上下文分布转移

本文介绍了离线元强化学习（OMRL）的上下文基础，特别是针对 OMRL 的任务表示学习问题。我们提出了一种硬采样的策略来学习一个强大的任务上下文编码器，实验结果表明，与基线方法相比，在多个不同的连续控制任务中，使用我们的技术可以得到更强壮的任务表示和更好的测试性能。

Apr, 2023

审视我们忽略的事物：在基于上下文的离线元强化学习中驾驭任务表征的转移

通过最大化互信息来提高任务表示能够实现性能的单调改善，其中，RETRO 算法重新调整任务表示偏移，从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。

May, 2024

使用多层读出的水库计算深度 Q 网络

这篇论文提出了一种引入储备计算的重放记忆方法，在这种方法中，使用多层神经网络作为读出层可以提高基于递归神经网络的强化学习在四种控制任务中的学习性能。

Mar, 2022

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015