- 使用 Dueling Q-Learning 和 Hebbian Plasticity 学习玩 Atari 游戏
该研究利用先进的深度强化学习架构训练神经网络代理在 Atari 游戏中进行游戏。使用深度 Q 网络和分离 Q 网络等先进技术训练高效代理,并分析了基于可塑性的神经网络在该场景中的可行性以及它们在自适应学习环境中的生命周期学习特性。该研究对于 - 安全探索的 Atari 代理人的近似屏蔽
研究探讨如何在强化学习中实现安全探索,提出了一种基于 latent shielding 的算法,能有效减少安全违规率并提高最终代理的收敛速度和质量。
- 通过使用说明手册学习玩 Atari,实现读书有用
通过阅读 Atari 游戏开发者发布的指南,提出了 Read and Reward 框架来提高强化学习算法的效率,在 Atari 游戏开发者发布的手册中提取相关信息,然后提供辅助奖励给标准的 A2C RL 代理,取得了在 Atari 环境中 - 通过受限制优化提升内在奖励
该研究提出了一种名为 EIPO 的优化策略,通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系,以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试,表现优异。
- 进化算法中新颖性的出现
采用共享奖励系统鼓励多样性行为是避免进化算法陷入局部极小值的有效方法,用于解决迷宫问题和 Atari 游戏,相比 Novelty Search 方法,本文方法实现更简单且性能更好。
- IGN:隐式生成网络
利用 GAN 模型的生成器和判别器函数与分位数回归来近似状态行动返回分布的完整分位数值,结合最近的分布强化学习的进展,实现了基于 IQN 的最新分布式变体模型,并在 ALE 中基于 57 种 Atari 2600 游戏的基准数据集上演示了改 - 多游戏决策转换器
本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现,发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳,并提供预训练 - 基于核范数最大化的好奇心驱动学习
本文提出了利用核范数最大化的好奇心探索新颖性的方法,以解决强化学习中固有奖励的稀疏性和嘈杂性所带来的挑战,实验结果表明该方法在 Atari 游戏子集中达到了超过其他好奇心方法的性能水平。
- 深度强化学习的方法论建议收集和重用
使用强化学习结合深度神经网络在 Atari 游戏上进行研究,提出使用另一个神经网络计算不确定度的方法来指导行动建议,结果表明双重不确定度可提高学习性能。
- 强化学习中历史状态的时间对齐
本文提出了一种基于自监督机制的方法 (TempAl),通过自动化的历史状态表示,在 Reinforcement Learning 的非完全可观测环境中取得了比单独使用瞬时状态表示更好的结果,实验证明在 49 个 Atari 游戏中的 35 - 从奖励中学习关系规则
本文通过关系强化学习来理解认知系统如何选择在特定任务中有用的特征关系以及如何利用这些表达来有效地与环境交互。我们使用建立在 RRL 中开发的函数逼近器的简单模型来展示我们的方法的潜力,并在需要考虑日益增多的潜在关系的三个 Atari 游戏中 - Lazy-MDPs: 基于学习何时采取行动的可解释强化学习
该论文提出了一种名为 lazy-MDPs 的增强学习新形式,它可以将人类的 “懒惰” 行为方式注入到决策过程中,因此对于解释标准 MDP 的政策能力得到更好的提升,同时该方法在 Atari 游戏中可以实现与竞争水平相当的性能。
- 行动 66 号:面向强化学习的有针对性数据毒化
该研究提出了一种针对强化学习的隐匿性数据污染攻击,使用最新的梯度对齐技术,仅对少量的训练数据进行最小限度的修改,而不需要对策略或奖励进行任何控制,目的在于仅在特定目标状态下导致智能体总体表现不佳,在两个难度不同的 Atari 游戏中进行了实 - ICML大批次经验回放
本文将回放缓冲区采样问题看作梯度估计的重要采样问题,并提出了一种新的采样方案 LaBER,与 DQN、分布式 RL 和 actor-critic 方法相结合,能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能 - KDD数据效率深度强化学习的集成和辅助任务
研究了整合深度强化学习算法中的集成和辅助任务的影响,并在 ATARI 游戏中进行了案例研究,在有限的数据约束下,从不同的方法来分析学习集合和使用辅助任务的各种方式,并使用分析结果来提供对案例研究的理解。
- 使用循环快速权重编程器超越线性变压器
通过在快速和慢速神经网络中加入循环来探索新的变化形式,提出一种新颖的循环快速权重编程模型(RFWPs),并在两个合成算法任务,语言模型和 Atari 2600 2D 游戏环境中评估了模型的效果。
- ICLR通过谱强化学习适应奖励进度
本文探讨了一种在增量奖励的加强学习任务中,为了解决价值深度强化学习代理人遇到相对没有奖励的区域的问题,提出了一种名为 “Spectral DQN” 的方法,将奖励分解成特定的频率,从而让损失函数平衡,这种方法成功地提高了标准价值法的效率,并 - 有界预知下的 Atari 游戏防护
针对深度强化学习在安全关键领域中的应用,本研究提出了一种确保 Atari 电子游戏中 DRL 智能体安全的方法,仅需使用仿真器即可进行分析,此方法可有效提高智能体的安全性。
- ICLR离散世界模型掌握 Atari
DreamerV2 是一种基于 world models 且在离线的训练集上通过 reinforcement learning 进行策略 (即行为) 学习的智能体,用于通过对 compact latent space 进行预测,实现从 At - AAAI将深度 Q 网络转换为事件驱动的脉冲神经网络的策略和基准
本研究旨在将 DNN 转化为 SNN,并在使用深度强化学习进行 ATARI 游戏时提高性能及结果。研究采用新的度量方法和模拟时间参数标准,最终在 17 种 ATARI 游戏中达到最优性能,为以后采用 SNNs 解决深度强化学习任务提供基准和