一种人工智能协作人口训练的层级方法

May, 2023

一种人工智能协作人口训练的层级方法

A Hierarchical Approach to Population Training for Human-AI Collaboration

Yi Loo, Chen Gong, Malika Meghjani

TL;DR介绍了一种基于层级深度强化学习的人机协作方法，通过训练一个智能体来适应不同的合作伙伴，并且在2人合作的Overcooked游戏中进行测试验证。

Abstract

A major challenge for deep reinforcement learning (DRL) agents is to collaborate with novel partners that were not encountered by them during the training phase. This is specifically worsened by an increased vari

发现论文，激发创造

基于人群的深度强化学习在第一人称多人游戏中达到人类水平的表现

本研究提出了一个新颖的两层优化过程来训练共有多个独立的强化学习智能体，这些智能体仅使用Q3A视频游戏的像素和游戏得分作为输入，即使在富有挑战性的多智能体环境中互相协作和竞争，这些智能体也能够达到类人水平，并展现出人类般的行为表现。

Jul, 2018

实际人机协作强化学习

本研究通过一个协同迷宫游戏设计，用深度强化学习技术实现了人机共同协作。研究结果证明人机共同协作相互影响，在时间的推进下不断适应并建立起相应策略，这为人机智能的协作提供了可行的方案。

Mar, 2020

无需人类数据的人机协作

本文探究如何培训出更好地与人类合作的机器人，提出了一种名为Fictitious Co-Play的方法，通过与自己过去的训练成果和自己对战来训练代理人合作，实证实验显示在与新型代理人和人类伙伴（比如二人协作烹饪模拟器）合作时，使用FCP方法产生显著更高的学习效果与人类喜好。

Oct, 2021

零样本人工智能协同的最大熵基于人口训练

本文提出了一种通过最大熵种群训练（MEP）来训练RL系统的方法，以促进代理系统间的多样性和个体代理自身的多样性，并通过优先采样对资深代理进行训练。在 Overcooked 游戏环境中，与自我游戏PPO（SP）等方法进行比较，我们证明了MEP方法的有效性。

Dec, 2021

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022

通过人类规正化搜索和学习，实现人类和人工智能的协同

利用针对人类的数据规范化搜索方法及行为克隆技术，开发了一种三步算法来在不完全可观测的完全合作环境中与真人协作，该算法在 Hanabi 基准测试中表现出强大的协调性。

Oct, 2022

多智体基于偏好的强化学习在人工智能团队合作中的基准测试

人机协作中基于偏好的强化学习(PbRL)是一个活跃的研究领域，并在单个代理人和观察者在环路场景中取得了显著的进展。然而，在人机合作的多代理强化学习框架中，在人类积极参与并表达对代理行为偏好的应用仍然是未知的。

Dec, 2023

现实世界复杂环境中的人工智能协作与强化学习

在复杂的模拟环境中，研究表明人工智能与人类的合作胜过仅有人类或仅有人工智能代理的情况，并开发出了一种用户界面，使人类有效地协助人工智能代理。

Dec, 2023

基于大型语言模型的人工智能与人类合作解决复杂任务

基于大型语言模型的人机协作研究旨在解决LLM智能代理在适应动态环境和完全理解人类需求方面的不足，在此工作中，我们介绍了复杂任务解决中基于LLM的人机协作问题，并提出了一种基于强化学习的人机协作方法ReHAC，该方法通过策略模型确定人类干预的最佳时机，为此我们构建了一个供离线强化学习环境训练该策略模型的人机协作数据集，验证测试结果证实了模型的有效性，研究结果表明，人类和LLM智能代理的协同努力通过精心计划的有限人类干预显著提高了复杂任务的性能。数据集和代码可在此链接获取：this https URL

Feb, 2024

从单人指导实现多机器人协作

本研究解决了多智能体系统中有效学习协作行为的难题。我们提出了一种高效明确的方法，通过借助单个人类专家的指导，让智能体学习协作。这一方法在具有挑战性的合作捉迷藏任务中提升了成功率，证实了在人类指导下，智能体能够有效协作，且实验结果能够应用于现实世界。

Sep, 2024