循环强化学习：一种混合方法

Sep, 2015

Recurrent Reinforcement Learning: A Hybrid Approach

Xiujun Li, Lihong Li, Jianfeng Gao, Xiaodong He, Jianshu Chen...

TL;DR本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Abstract

Successful applications of reinforcement learning in real-world problems often require dealing with partially observable states. It is in general very challenging to construct and infer hidden states as they ofte

reinforcement learning partially observable states deep learning recurrent neural networks long short-term memory

发现论文，激发创造

量子深度循环强化学习

本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题，并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。

Oct, 2022

基于循环神经网络的监督增强学习在动态治疗推荐中的应用

本文提出一种基于监督强化学习和循环神经网络的动态治疗建议系统，用于处理医疗记录中的复杂关系和部分观测问题，实验结果表明该系统能够有效减少患者死亡率和提高医疗建议的准确性。

Jul, 2018

强化学习学习

本文提出了一种名为深度元强化学习的方法，该方法使用递归网络，在一个强化学习算法上进行训练，但其递归动态实现第二个、完全分离的强化学习过程，通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。

Nov, 2016

部分可观察 MDPs 的深度循环 Q 学习

本文介绍了一种新型深度强化学习模型 Deep Recurrent Q-Network (DRQN)，使用 recurrent LSTM 替换 DQN 的第一个后卷积全连接层，DRQN 在每个决策点只看到一个帧，但可以成功地通过时间积分信息，并且在标准的 Atari 游戏和部分不完整的游戏中表现出与 DQN 相似的性能，且在不同可观察性情况下 DRQN 的性能也随之变化。因此，recurrency 是 DQN 的一种可替代方式。

Jul, 2015

自动强化学习概述

论文探讨自动化强化学习的关键元素和挑战，并讨论自动化强化学习的最新工作、应用和研究方向。

Jan, 2022

使用深度强化学习学习状态表示以进行查询优化

研究使用深度强化学习在数据库领域中的查询优化问题，特别关注状态表征问题和状态转移函数的构建，并证明该方法在优化查询方面具有潜在的应用价值。

Mar, 2018

透過週期性神經網路的增強學習，實現行動層次和組合的自我組織

该研究提出一种新型的多时间尺度随机循环神经网络用于强化学习，可以自主学习抽象的子目标并自我开发行为层次结构，在挑战性的连续控制任务中确保了比起从头开始训练更快的再学习。同时，研究发现，当神经活动遵循随机动态时，可以实现更好的表现。

Jan, 2019

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

RL$^2$: 快速增强学习通过慢增强学习

通过将强化学习算法 RL^2 表示为递归神经网络并从数据中学习，我们提出了一种方法来尝试理解替代动物的快速学习过程。我们在具有优化性能保证的情况下评估了 RL^2 的性能，并证明它适用于高维问题。

Nov, 2016

关于提高 POMDP 上深度强化学习的方法

提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构，该体系结构使用 LSTM 层来学习潜在状态，以增强在多个部分可观察领域的学习性能，包括 Atari 游戏。

Apr, 2018