关系深度强化学习

Jun, 2018

Relational Deep Reinforcement Learning

Vinicius Zambaldi, David Raposo, Adam Santoro, Victor Bapst, Yujia Li...

TL;DR通过结构化感知和关系推理的方法，使用自我注意力来进行实体之间关系的迭代推理以及指导无模型策略的建立，提高了强化学习的效率、泛化能力和可解释性，并在 Box-World 任务和 StarCraft II Learning Environment 等方面取得了一定的进展。

Abstract

We introduce an approach for deep reinforcement learning (RL) that improves upon the efficiency, generalization capacity, and interpretability

deep reinforcement learning self-attention relational reasoning interpretability generalization

发现论文，激发创造

基于图神经网络的符号关系深度强化学习

通过图神经网络和自回归策略分解，构建了一个深度强化学习框架，在多样化场景下表现出了出色的竞争能力和卓越的零 - shot 泛化能力.

Sep, 2020

从奖励中学习关系规则

本文通过关系强化学习来理解认知系统如何选择在特定任务中有用的特征关系以及如何利用这些表达来有效地与环境交互。我们使用建立在 RRL 中开发的函数逼近器的简单模型来展示我们的方法的潜力，并在需要考虑日益增多的潜在关系的三个 Atari 游戏中进行了训练和测试。在每个游戏中，我们的模型能够选择适当的关系表达式，并逐步建立关系策略。我们探讨了本模型与关系和类比推理模型之间的关系，以及其限制和未来的研究方向。

Mar, 2022

视觉关系与属性检测的深度变化结构强化学习

本研究提出了一种基于深度强化学习算法的新方法 VRL，能够更好地理解场景中物体之间的相互关系和属性，并在大规模数据集上验证其优越性和预测能力。

Mar, 2017

高效基于实体的强化学习

本文介绍了通过将最近的集合表示形式与图神经网络和槽注意方法相结合来处理结构化数据，从而拓宽深度强化学习算法的应用范围，改善训练时间和鲁棒性，并且证明这种方法可以在多种环境下处理结构化和视觉领域的问题。

Jun, 2022

深度可解释关系强化学习：神经符号方法

提出了一种新的框架 Deep Explainable Relational Reinforcement Learning (DERRL)，它结合了神经网络和符号世界的优势来提取可解释的策略。通过在倒计时游戏、积木世界、网格世界和交通等不同环境中的实验证明，DERRL 可以适用于不同的配置和情境，从而具有通用性。

Apr, 2023

深度无模型强化学习中的感知学习

本文提出了一个用于强化学习（RL）的新型无模型代理人，从视觉关注和主动感知的概念中受到启发，将人类注意力机制应用于代理人，创建了一种硬式关注机制，结合了 RAM 模型和 PPO 算法，在两个 Atari 游戏中比较其性能，结果表明我们的模型能够匹配 PPO+LSTM 的表现。

Jan, 2023

感知世界：针对基于文本游戏的问题引导强化学习

本研究探讨了深度强化学习在文本游戏中的应用，提出了通过引入知觉模块以及使用两阶段训练框架来提高样本效率，从而解决了应用 DRL 的两个主要挑战。实验结果表明，提出的方法显着提高了性能和样本效率，并且对复合错误和数据有限的预训练表现出鲁棒性。

Mar, 2022

通过知识蒸馏和自主规则发现实现高效的开放世界强化学习

深度强化学习的关键问题包括忘记和样本效率低下，该研究通过发现并利用空间信息推导任务特定规则，提出了一个通用框架来帮助智能体在新环境中自主学习并增加适应速度。该框架的实现之一是基于规则驱动的深度 Q 学习代理，它在实验中表现出明显更强的抵抗新鲜事物和适应新情况的能力。

Nov, 2023

基于层叠分层注意力的深度强化学习在基于文本的游戏中的应用

本文研究了强化学习在基于文本的游戏中的应用，提出了利用知识图谱进行明确推理的方法，并通过分层注意机制构建了推理过程的显式表示，实验结果表明该方法优于现有的基于文本的代理人。

Oct, 2020

可控行为的弱监督强化学习

本文介绍了一种使用弱监督来自动区分语义明确的任务子空间和无意义的 “杂草” 任务空间的方法。研究表明，这种学习到的子空间可实现高效探索，并提供了一种捕捉状态间距离的表示形式。该方法在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升，特别是在环境复杂性增加的情况下。

Apr, 2020