本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题,并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。
Oct, 2022
本文提出一种基于监督强化学习和循环神经网络的动态治疗建议系统,用于处理医疗记录中的复杂关系和部分观测问题,实验结果表明该系统能够有效减少患者死亡率和提高医疗建议的准确性。
Jul, 2018
本文提出了一种名为深度元强化学习的方法,该方法使用递归网络,在一个强化学习算法上进行训练,但其递归动态实现第二个、完全分离的强化学习过程,通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。
Nov, 2016
本文介绍了一种新型深度强化学习模型 Deep Recurrent Q-Network (DRQN),使用 recurrent LSTM 替换 DQN 的第一个后卷积全连接层,DRQN 在每个决策点只看到一个帧,但可以成功地通过时间积分信息,并且在标准的 Atari 游戏和部分不完整的游戏中表现出与 DQN 相似的性能,且在不同可观察性情况下 DRQN 的性能也随之变化。因此,recurrency 是 DQN 的一种可替代方式。
Jul, 2015
论文探讨自动化强化学习的关键元素和挑战,并讨论自动化强化学习的最新工作、应用和研究方向。
Jan, 2022
研究使用深度强化学习在数据库领域中的查询优化问题,特别关注状态表征问题和状态转移函数的构建,并证明该方法在优化查询方面具有潜在的应用价值。
Mar, 2018
该研究提出一种新型的多时间尺度随机循环神经网络用于强化学习,可以自主学习抽象的子目标并自我开发行为层次结构,在挑战性的连续控制任务中确保了比起从头开始训练更快的再学习。同时,研究发现,当神经活动遵循随机动态时,可以实现更好的表现。
Jan, 2019
通过提出一种名为模型增强对比强化学习(MCRL)的新型强化学习推荐器,我们解决了离线数据集的稀疏性以及负反馈无法获取的问题,并通过对比学习来优化奖励函数和状态转移函数,实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。
Oct, 2023
通过将强化学习算法 RL^2 表示为递归神经网络并从数据中学习,我们提出了一种方法来尝试理解替代动物的快速学习过程。我们在具有优化性能保证的情况下评估了 RL^2 的性能,并证明它适用于高维问题。
提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构,该体系结构使用 LSTM 层来学习潜在状态,以增强在多个部分可观察领域的学习性能,包括 Atari 游戏。
Apr, 2018