- AAAI通过矩匹配实现分布式强化学习
本文提出了一种无限制统计学习方法,利用神经网络和最大均值偏差技术来匹配收益分布和 Bellman 目标,适用于分布式 RL 并在 Atari 游戏中获得了优异表现。
- ICML区别性对比网络:一种表示对象的对比方法
本文介绍了一种无监督抽取物体的方法,在机器学习中具有重要意义。该方法不使用标签,通过利用物体的运动来学习区分每个对象,并使用新的量化评估指标,在 20 个 Atari 游戏中对其性能进行评估。
- 通过生成模型的内在奖励驱动的模仿学习
通过引入一种新的奖励学习模块,可通过生成模型生成内在奖励信号。我们的生成功能可以更好地执行前向状态转换和后向动作编码,提高模块在环境中的动力学建模能力,并为模仿代理提供了模仿者的内在意图和更好的探索能力。经验证明,我们的模型在多个 Atar - Agent57:超越 Atari 人类基准
本文提出了 Agent57,这是第一个在 57 个 Atari 游戏中超越人类水平的深度强化学习智能体,该智能体通过训练一个神经网络来参数化从探索性到完全利用性的一系列策略,并提出了一种自适应机制来选择优先考虑哪种策略。此外,我们还利用一种 - ICML通过快速贝叶斯奖励推断从喜好中进行安全的模仿学习
Bayesian Reward Extrapolation (Bayesian REX) is an efficient algorithm for high-dimensional imitation learning, which pr - AAAI深度选项学习中权重共享的作用
本篇论文提出了一种针对 option-critic 架构中参数独立性的扩展,可以显著提高使用长期选项训练游戏的稳定性和效率。
- ICLR解释您的行动:使用特定且相关的特征归因理解代理动作
本研究提出了 SARFA,一种基于深度增强学习的视觉化方法,生成更加专业和相关的显著图,相比现有方法更容易解释。在棋盘游戏(如国际象棋和围棋)和 Atari 游戏(如打砖块、乒乓球和太空侵略者)的比较中,SARFA 产生的显著图比现有方法更 - ICLR探索性而非解释性:深度强化学习性能显著性图的反事实分析
该研究使用反事实推理来测试从显著性图中产生的假设并评估其与强化学习环境语义相对应的程度,以 Atari 游戏作为常见的深度强化学习基准来评估三种不同类型的显著性图,并发现显著性图最好视为一种探索性工具而非解释性工具。
- 分布式强化学习全参数分位函数
本文提出了一种新的分布式强化学习算法,该算法采用完全参数化分位函数,通过参数化分位函数的分位数量轴和值轴来更好地估计连续分布,并在 Atar 游戏环境中得到了前所未有的表现。
- ICLR具备变分内在继承特征的快速任务推理
本文介绍了一种将马尔可夫决策过程和继承特征相结合的算法 (VISR),该算法通过学习可控特征对继承特征进行增强,从而实现对 Atari 游戏中奖励的快速学习和泛化能力,并在 14 个游戏中实现了人类水平的表现。
- ICML通过观察从反强化学习中超越次优演示
本文提出了一种基于 Trajectory-ranked Reward EXtrapolation (T-REX) 算法的强化学习奖励学习方法,该方法可以从一系列排名不佳的示范中开创性地推断出高质量的奖励函数,并结合深度强化学习方法,在多个 - IJCAI强化学习中使用自然语言进行奖励塑形
使用自然语言指令进行奖励塑形,在复杂的 Atari 游戏中,比标准强化学习算法成功完成任务的次数平均提高了 60%,并且可以无缝集成到任何标准强化学习算法中。
- 基于模型的 Atari 强化学习
这篇文章介绍了基于视频预测模型的 Simulated Policy Learning 方法,该方法通过在仅与环境交互 100k 次(两小时实时游戏)的情况下,在多个 Atari 游戏中实现比现有的基于模型无关的方法更好的表现。
- 深度强化学习的信息导向探索
本文提出了一种基于信息导向采样的探索策略,结合分布式强化学习的方法,应对异方差性观测噪声与参数不确定性的挑战,并在 Atari 游戏中展示出比传统策略显著的改进。
- NIPS在 Atari 中从人类偏好和演示中进行奖励学习
本研究使用深度神经网络进行强化学习,将人工反馈的目标作为奖励函数输入,并结合了专家演示与轨迹优先学习两种方法。实验在 9 个 Atari 游戏中超越了模仿学习的基线,并在其中 2 个游戏中获得了超人的表现,同时研究了奖励模型拟合度、奖励篡改 - ICLR强化学习中的应变感知探索
本文研究了学习环境的可控方面和连续性感知是否能够导致强化学习中更好的探索并开展了相关实验,结果表明使用我们的态势代表结合演员 - 评论家算法和计数探索实现了卓越的效果。
- NIPS马尔可夫决策过程中的时间规则化
本篇论文介绍了一种基于时间规则化的强化学习方法,利用马尔可夫链概念正式描述技术引入的偏差。在简单的离散和连续 MDP 中说明时间规则化的各种特性,并表明该技术即使在高维 Atari 游戏中也提供了改进。
- NIPS利用过去的在线调整进行快速深度强化学习
我们提出了 “短暂价值调整(Ephemeral Value Adjustments,EVA)”:一种允许深度强化学习代理快速适应其回放缓冲区中的经验的方法。EVA 通过估计从当前状态附近的回放缓冲区中的经验组成的价值函数来转移神经网络预测的 - 目标敏感的深度强化学习
该研究提出了一种新方法,可以将物体识别处理引入深度强化学习模型,提供了一种新方法来解释深度强化学习智能体的行动,并在 Atari 游戏方面取得了最先进的结果。
- PopArt 多任务深度强化学习
该研究智能体如何在一次学习过程中掌握多个顺序决策任务。作者们提出一种自适应方法,使每个任务对学习过程的影响基本相同,并在 57 个不同类型的 Atari 游戏中取得了优异的表现,学习了一个超越人类表现的单一训练策略。