多智能体系统中的策略表示学习

ICMLJun, 2018

Learning Policy Representations in Multiagent Systems

Aditya Grover, Maruan Al-Shedivat, Jayesh K. Gupta, Yura Burda, Harrison Edwards

TL;DR我们提出了一个用于多智能体系统中建模代理行为的泛化学习框架，将代理建模作为表示学习问题，并使用模仿学习和代理识别的算法进行无监督学习，以构建代理策略的表示形式。在具有挑战性的高维连续控制和通信合作环境中，我们经验证明该框架对于使用深度强化学习进行无监督聚类和策略优化的监督预测任务具有实用价值。

Abstract

Modeling agent behavior is central to understanding the emergence of complex phenomena in multiagent systems. Prior work in agent modeling has largely been task-specific and driven by hand-engineering domain-spec

agent modeling multiagent systems representation learning imitation learning deep reinforcement learning

发现论文，激发创造

可解释化多智能体强化学习的概念学习

本文介绍了一种将领域专家的可解释概念纳入到多智能体强化学习模型中的方法，以提高模型的解释性和稳定性，提高性能和样本效率。

Feb, 2023

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

学习潜在表征以影响多智体交互

该论文提出了一种基于强化学习的框架，用于学习代理人策略的潜在表示，通过学习潜在的动态关系，以影响其他代理人，推动其向适合于协同适应的策略方向发展，该方法在多个模拟领域和现实世界的空气曲棍球比赛中表现优异。

Nov, 2020

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018

学习用于规划的抽象且可迁移的表示

该论文提出了一个框架来自我学习代理环境的状态抽象，这些抽象是任务无关的可重用的，从而显著提高了学习效率和代理任务解决的能力。

May, 2022

通过互动学习物体的几何表示

从不受限制的各种观测中提取代理和外部物体在物理空间中的位置的表示学习框架，仅依靠代理执行的动作作为唯一的监督信号，并假设物体通过未知动力学被代理移动，能够确保从中推断出等度量表示，并正确提取它们的位置。

Sep, 2023

基于对比学习的深度强化学习中的代理建模

多代理系统中，对智能机器代理进行适应性策略设计时，代理建模是至关重要的，通过代理建模可以理解其他代理的行为并提取有意义的策略表示，为增强自我代理的适应性策略提供帮助。这篇研究以对比学习为基础的代理建模方法（CLAM）只依赖于自我代理在训练和执行过程中的局部观察，可以实时生成一致且高质量的策略表示，且在合作和竞争多代理环境中取得了最先进的结果，突显了对比学习为基础的代理建模在增强式学习中的潜力。

Dec, 2023

使用物体感知表达式的多物体场景视觉运动控制

本文探索运用物体感知表征学习技术进行机器人任务，自监督学习方法可降低实际世界中收集大量标记数据的成本，该研究展示物体感知表征学习技术在策略学习和物体定位预测方面显著提高了当前技术的效能和表现。

May, 2022

针对具身智能的好奇心表示学习

通过提出一个奇思妙想的自学习框架，结合强化学习探索数据并训练视觉表示模型，使得机器能够从未标注的大规模图片数据中学习，得到一种强化学习的样本自提取方式，并在实际应用中展现了很好的转移性能。

May, 2021

任务诱导的表示学习

本研究评估表征学习方法在视觉复杂环境下决策制定中的有效性，并发现任务诱导的表征学习方法可以提高样本效率和学习效率。

Apr, 2022