合作多智体强化学习中的教学学习

May, 2018

合作多智体强化学习中的教学学习

Learning to Teach in Cooperative Multiagent Reinforcement Learning

Shayegan Omidshafiei, Dong-Ki Kim, Miao Liu, Gerald Tesauro, Matthew Riemer...

TL;DR本文提出了一种新的算法，名为 Learning to Coordinate and Teach Reinforcement（LeCTR），通过在协作多智能体强化学习中使每个代理都学习何时提供何种建议，从而改善整个团队性能和学习效果。实证比较表明，我们的教学代理不仅学习速度更快，而且在现有方法失败的任务中也学会了协作。

Abstract

Collective human knowledge has clearly benefited from the fact that innovations by individuals are taught to others through communication. Similar to human social groups, agents in distributed learning systems would likely benefit from communication to share knowledge and teach skills.

multiagent distributed learning systems teaching cooperation reinforcement learning

发现论文，激发创造

教学的学习

本文介绍一种名为 “学习教学” 的方法，它利用两个智能代理相互交互：一个学生模型和一个教师模型。教师模型利用学生模型的反馈来优化自己的教学策略，以达到教师和学生的共同进化，并在各种机器学习任务下通过使用深度神经网络等模型来展示这一方法的实用价值。

May, 2018

多智能体强化学习中的协作课程学习

在多智能体环境中，通过使用降低技能水平的协作队友为学习代理制定学习课程，能够同时实现任务完成与整体团队奖励最优。

Dec, 2023

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

多智能体团队中可迁移合作行为的学习

提出使用共享的代理 - 实体图来建模多智能体相互作用，并利用基于图的强化学习训练代理实现协作行为，实现了对多种任务的有效解决，并展示了其泛化能力。

Jun, 2019

合作式深度强化学习

本文提出了一种协作深度强化学习框架，其中包括深度知识蒸馏方法、异构学习任务深度对齐网络、有效的协同 A3C 算法等，用于在不同学习任务中执行自适应知识转移

Feb, 2017

Verco：多智能体强化学习中协调语言沟通的学习

我们提出了一种新的多智能体强化学习算法，将大型语言模型嵌入到智能体中，使其能够生成人类可理解的口头沟通，通过在智能体之间进行信息共享来显著提高学习效率和性能，并为人类提供解释多智能体合作过程的工具。

Apr, 2024

多智能体强化学习实现新兴社交学习

该论文研究在多智能体环境下，独立强化学习代理人是否可以学习使用社会学习来提高性能，并发现通过在训练环境中强加约束条件和引入基于模型的辅助损失，可以获得广义的社会学习策略，使代理人能够发现不是通过单个代理人训练获得的复杂技能并且通过从新环境的专家那里获取线索在线适应新环境。

Oct, 2020

互动学习和辅助学习

本文通过引入多智能体训练框架，提出交互式学习作为一种替代奖励或演示驱动学习的方法，并通过一系列实验展示了信息共享、信息查询和问答等交互学习行为的出现，最终发现该方法可以使得自主智能体在不需要显式演示或奖励函数的情况下，与人类合作执行任务并获得更好表现的能力。

Jun, 2019

合作多智体强化学习的共识学习

本研究提出了一种协作多智能体强化学习的共识学习方法，通过基于本地观察的共识学习，在分散式执行期间将推断出来的共识明确地作为智能体网络的输入，从而发展他们的合作精神，并在若干完全合作任务上获得了令人信服的结果。

Jun, 2022

深度多智能体强化学习中的通信学习

本研究基于深度神经网络，提出两种学习策略（RIAL 和 DIAL），探究在多智能体感知与互动的环境下，通过学习通信协议最大化共享效益的问题。研究表明通过这种中心化学习、分散式执行的方法能够在通信难题和多智能体计算机视觉问题领域中实现端到端的协议学习。

May, 2016