通过竞争激发机器人潜力
本项目通过引入多智能体强化学习,创造了一款竞争人类的机器人选手 - Fencing Game,评估了机器人选手的能力和用户体验,用户研究发现它能够持续创造具有挑战性和愉悦性的交互,能有效增加人体心率,被绝大多数受试者认为是有趣且能提升锻炼质量的系统。
Feb, 2022
本文介绍了几种在三维环境中进行竞争多智能体自我对抗训练的方法,这些方法可以训练出丰富多彩、技能复杂的智能体。此外,我们指出,自我对抗训练可以产生超出环境本身复杂性的行为,并且自带课程设置,有助于智能体学习不同难度水平下的技能。
Oct, 2017
本研究采用多智能体相互作用的方法,开发了一个可扩展的具有现实物理和人类相关语义的竞争环境,旨在解决强探索环境中的问题,并进行了多项实验以获得简单的新兴策略和未来改进的具体方向。
Jan, 2023
通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境,我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步:从随机的行为到简单的球追逐,最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案,可以在没有预定义评估任务或人类基准的情况下评估代理的性能。
Feb, 2019
该研究探讨如何通过学习其他机器人的策略,以及动态模型的帮助,定义一个无监督的稳定奖励来影响其他机器人的策略以实现稳定,并展示了其在自动驾驶、紧急通信和机器人操作等方面的有效性。
Oct, 2021
研究系统在进行学习和获取新信息的探索过程中如何平衡用户的需求和竞争,通过考虑多臂赌博算法之间的竞争和用户的不同反应模型,研究竞争是否促进更好的算法的采用,这与经济学中的 “竞争与创新” 关系密切相关。
Feb, 2017
大型语言模型的竞争行为研究:本文提出了一个通用框架来研究基于 LLMs 的代理之间的竞争行为,并使用 GPT-4 实现了一个模拟虚拟城镇的实际竞争环境,包括餐厅代理和顾客代理。研究发现竞争促使餐厅代理采取不同的运营策略,呈现出社会学和经济学理论所支持的一些有趣结果。
Oct, 2023
我们提出了一种新的多智能体模仿学习模型,用于预测对手的下一步动作,并将其与策略训练结合为一个训练过程的多智能体强化学习算法,在三个具有挑战性的游戏环境中进行了广泛实验,结果表明我们的方法在性能上优于现有的多智能体强化学习算法。
Aug, 2023