一种人工智能协作人口训练的层级方法
本研究提出了一个新颖的两层优化过程来训练共有多个独立的强化学习智能体,这些智能体仅使用Q3A视频游戏的像素和游戏得分作为输入,即使在富有挑战性的多智能体环境中互相协作和竞争,这些智能体也能够达到类人水平,并展现出人类般的行为表现。
Jul, 2018
本研究通过一个协同迷宫游戏设计,用深度强化学习技术实现了人机共同协作。研究结果证明人机共同协作相互影响,在时间的推进下不断适应并建立起相应策略,这为人机智能的协作提供了可行的方案。
Mar, 2020
本文探究如何培训出更好地与人类合作的机器人,提出了一种名为Fictitious Co-Play的方法,通过与自己过去的训练成果和自己对战来训练代理人合作,实证实验显示在与新型代理人和人类伙伴(比如二人协作烹饪模拟器)合作时,使用FCP方法产生显著更高的学习效果与人类喜好。
Oct, 2021
本文提出了一种通过最大熵种群训练(MEP)来训练RL系统的方法,以促进代理系统间的多样性和个体代理自身的多样性,并通过优先采样对资深代理进行训练。在 Overcooked 游戏环境中,与自我游戏PPO(SP)等方法进行比较,我们证明了MEP方法的有效性。
Dec, 2021
利用针对人类的数据规范化搜索方法及行为克隆技术,开发了一种三步算法来在不完全可观测的完全合作环境中与真人协作,该算法在 Hanabi 基准测试中表现出强大的协调性。
Oct, 2022
人机协作中基于偏好的强化学习(PbRL)是一个活跃的研究领域,并在单个代理人和观察者在环路场景中取得了显著的进展。然而,在人机合作的多代理强化学习框架中,在人类积极参与并表达对代理行为偏好的应用仍然是未知的。
Dec, 2023
在复杂的模拟环境中,研究表明人工智能与人类的合作胜过仅有人类或仅有人工智能代理的情况,并开发出了一种用户界面,使人类有效地协助人工智能代理。
Dec, 2023
基于大型语言模型的人机协作研究旨在解决LLM智能代理在适应动态环境和完全理解人类需求方面的不足,在此工作中,我们介绍了复杂任务解决中基于LLM的人机协作问题,并提出了一种基于强化学习的人机协作方法ReHAC,该方法通过策略模型确定人类干预的最佳时机,为此我们构建了一个供离线强化学习环境训练该策略模型的人机协作数据集,验证测试结果证实了模型的有效性,研究结果表明,人类和LLM智能代理的协同努力通过精心计划的有限人类干预显著提高了复杂任务的性能。数据集和代码可在此链接获取:this https URL
Feb, 2024
本研究解决了多智能体系统中有效学习协作行为的难题。我们提出了一种高效明确的方法,通过借助单个人类专家的指导,让智能体学习协作。这一方法在具有挑战性的合作捉迷藏任务中提升了成功率,证实了在人类指导下,智能体能够有效协作,且实验结果能够应用于现实世界。
Sep, 2024