合作式深度强化学习

Feb, 2017

Collaborative Deep Reinforcement Learning

Kaixiang Lin, Shu Wang, Jiayu Zhou

TL;DR本文提出了一种协作深度强化学习框架，其中包括深度知识蒸馏方法、异构学习任务深度对齐网络、有效的协同 A3C 算法等，用于在不同学习任务中执行自适应知识转移

Abstract

Besides independent learning, human learning process is highly improved by summarizing what has been learned, communicating it with peers, and subsequently fusing knowledge from different sources to assist the current learning goal. This collaborative learning procedure ensures that th

collaborative learning deep reinforcement learning heterogeneous model knowledge transfer asynchronous advantage actor-critic algorithm

发现论文，激发创造

无线蜂窝网络上的语义感知协作深度强化学习

提出了一种新的语义感知 CDRL 方法，通过一种新的异构联合 DRL 算法实现了多智能体在无线网络中高效协作，并优化了训练损失和无线带宽分配以满足实时任务的时间限制。与现有算法相比，该方法表现出更优异的性能。

Nov, 2021

通过迁移学习增强现实世界人机合作团队表现

本项研究将迁移学习集成在深度强化学习代理中，以此从专家那里传递知识提高人 - 机器协作质量。实验发现，这种方式不仅缩短了任务训练时间，而且明显提升了团队表现和主观感受，并能为透明和可解释的机器人行为设计提供有趣的见解。

Nov, 2022

Hi-Core：层次化知识迁移用于连续性强化学习

Hi-Core 是一个新颖框架，用于在连续强化学习中增强高层次的知识传递，并通过大型语言模型（LLM）进行目标设置和低层次策略学习，并通过知识库存储策略实现层次化知识传递，实验证明其在处理多样化 CRL 任务上的有效性优于常见的基线模型。

Jan, 2024

一种人工智能协作人口训练的层级方法

介绍了一种基于层级深度强化学习的人机协作方法，通过训练一个智能体来适应不同的合作伙伴，并且在 2 人合作的 Overcooked 游戏中进行测试验证。

May, 2023

合作多智体强化学习中的教学学习

本文提出了一种新的算法，名为 Learning to Coordinate and Teach Reinforcement（LeCTR），通过在协作多智能体强化学习中使每个代理都学习何时提供何种建议，从而改善整个团队性能和学习效果。实证比较表明，我们的教学代理不仅学习速度更快，而且在现有方法失败的任务中也学会了协作。

May, 2018

多智能体交互的深度强化学习

本文概述了自主智能体的研究领域和目标，围绕多智能体强化学习、协作、与其他自主智能体的互动、基于内部动机的学习、课程学习等问题提出了自主智能体的开放性问题。

Aug, 2022

强化学习任务状态对应关系的学习，用于知识迁移

该研究提出了一种基于生成对抗网络模型的一对一转移学习方法，旨在解决深度强化学习中新任务的知识重用和泛化问题。

Sep, 2022

协作进化强化学习

本研究介绍了一种名为 CERL 的可扩展框架，其中包含一组策略，这些策略同时探索和利用解决方案空间的不同区域，并使用神经进化将这个过程绑定在一起，从而生成一个超越任何个体学习器的单个新兴学习器。实验表明，这个新兴学习器在连续控制基准测试中优于其复合学习器，并保持整体更高的采样效率。

May, 2019

多智能体强化学习实现新兴社交学习

该论文研究在多智能体环境下，独立强化学习代理人是否可以学习使用社会学习来提高性能，并发现通过在训练环境中强加约束条件和引入基于模型的辅助损失，可以获得广义的社会学习策略，使代理人能够发现不是通过单个代理人训练获得的复杂技能并且通过从新环境的专家那里获取线索在线适应新环境。

Oct, 2020

多智能体共识强化学习

本文提出一种基于多智能体共有信息的分层策略树的算法（MACKRL）实现复杂的去中心化协调，其中每个智能体可以独立地学习策略，并根据其共同知识进行协调，并在包括随机矩阵游戏和 StarCraft II 单元微管理等任务上实现更好的性能。

Oct, 2018