多智能体强化学习中多个独立顾问的学习

Jan, 2023

多智能体强化学习中多个独立顾问的学习

Learning from Multiple Independent Advisors in Multi-agent Reinforcement Learning

Sriram Ganapathi Subramanian, Matthew E. Taylor, Kate Larson, Mark Crowley

TL;DR本文提出了一种基于两级 Q-learning 架构的学习模型，可以同时从多个独立顾问中学习，以提高多智体强化学习在复杂环境下的效率和性能

Abstract

multi-agent reinforcement learning typically suffers from the problem of sample inefficiency, where learning suitable policies involves the use of many data samples. Learning from →

multi-agent reinforcement learning sample inefficiency external demonstrators multiple independent advisors q-learning architecture

发现论文，激发创造

多导师强化学习

通过分布式学习将单智能体 RL 问题分配给多个学习者，并使用本地化规划策略，引入了一种新的基于共情策略的解决方案，并在实验中验证了其在果实收集任务上的效果。

Apr, 2017

多智能体生成对抗模仿学习

本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架，它建立在广义反向强化学习的基础上，并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。

Jul, 2018

通过估计演示者的专业水平进行模仿学习

本研究通过对演示者专业技能的无监督学习，开发了一种可同时学习演示者政策和专业技能水平的联合模型，并通过过滤每种演示者的次优行为，训练出可以优于任何演示者的单一策略，并可用于估计任意状态下演示者的专业技能，在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。

Feb, 2022

深度强化学习的方法论建议收集和重用

使用强化学习结合深度神经网络在 Atari 游戏上进行研究，提出使用另一个神经网络计算不确定度的方法来指导行动建议，结果表明双重不确定度可提高学习性能。

Apr, 2022

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

来自真实多智能体演示的强化学习中的自适应动作监督

本文提出了一种自适应动作监督的 RL 方法，通过动态时间规整的最小距离选择 RL 真实世界演示中的动作，使得 RL 模型能够在网络空间获得回报

May, 2023

多智能体强化学习实现新兴社交学习

该论文研究在多智能体环境下，独立强化学习代理人是否可以学习使用社会学习来提高性能，并发现通过在训练环境中强加约束条件和引入基于模型的辅助损失，可以获得广义的社会学习策略，使代理人能够发现不是通过单个代理人训练获得的复杂技能并且通过从新环境的专家那里获取线索在线适应新环境。