融合之锅 2.0
研究多智体强化学习中的人机智能协作和多智体协作,提出一种混合个性模型改进的尖峰演员网络,以在合作场景下实现高性能表现,并说明了该算法的有效性和深度神经网络在合作测试中表现差的原因。
May, 2023
该论文提出了零样本人工智能与人类协作的新方法,使用策略组合方法以提高参与者的多样性,以及上下文感知方法使自我代理能够分析和识别合作伙伴的潜在策略原语以便其可以相应地进行不同的行为。结果表明,该方法在所有场景中实现了最先进的性能。
Jan, 2023
本文提出了一个由两个嵌套学习环节构成的算法,通过与人工学习代理和人类合作来评估机制代理的表现,结果显示,该机制代理能够引导参与者策略朝着有利的结果发展,为现代机构有效而自动地影响其成员的策略和行为开辟了道路。
Feb, 2022
本研究通过对称的零和矩阵游戏,证明了联盟形成可以被看作是一个社会困境,并且实证表明,在多代理强化学习中,天真的方法往往失败。同时,我们引入了点对点的合约机制来发现和执行联盟。最后,我们将我们的代理模型推广到了包括时间延伸合约的情况,并提出了进一步研究的机会。
Feb, 2020
多人游戏的独特挑战在于均衡策略的非唯一性和代理人执行高度次优策略的风险。本文首次解决了多人对称标准形式游戏中的这些挑战,给出了 AI 代理人应该找到的正确解决方案以及能够证明解决该类游戏的通用算法框架。我们还证明了许多先前实用系统中开发的元算法甚至无法实现基本目标,即获得代理人的总奖励的平等份额。
Jun, 2024
本文提出了利用市场力量鼓励多智能体系统中的协作行为,以应对智能驾驶或者工厂作为服务的具有相互冲突目标的混合动机场景。作者在包括囚徒困境博弈等迭代环节中证明了他们提出的市场推荐机制可以持续地学习协作策略,并证明在不同的智能体数量上,在时间和空间上的考验下,利用市场力量可以提高整体效果和智能体单个回报。
Jul, 2022
自我博弈强化学习是设计谈判对话系统的一种自然方法:通过训练一个与模拟用户互动的代理来最大化其性能,该模拟用户能够模仿人际对话数据。然而,在先前的工作中发现,这种方法导致系统存在根本缺陷,无法学习妥协的价值,经常导致达不成协议(即对方没有交易),最终损害了模型的整体性能。在以书籍、帽子和球为对象的多问题谈判任务中,基于经济学的谈判理论,我们通过两种新颖的方式修改训练程序,设计具有不同个性的代理并分析其与人类合作伙伴的表现。研究发现,虽然两种技术都有潜力,但一种自私的代理(在最大化自身性能的同时避免退出)通过隐性学习为自己和谈判伙伴产生价值而表现优于其他变体。我们讨论了这些发现对于成功谈判对话系统的意义以及如何设计这些系统的未来影响。
Oct, 2023
建立具有适应性行为的人工智能在人工智能与人类合作中具有重要的研究焦点。本研究提出了一种名为 ProAgent 的新框架,利用大型语言模型来预测合作伙伴的决策并改进自身计划。实验证明,ProAgent 在与人工智能代理和人类合作中表现出显著优越性能,为人类与机器人协作的未来研究提供了启示。
Aug, 2023
我们提出了一种新的匹配联盟机制,利用不同 ToM 水平的智能体的优势,明确考虑信念一致性和专门能力,在形成联盟时寻找最大程度促进合作行为并确保长期可行性的稳定联盟,从而将 ToM 应用于设计多智能体系统,提供更复杂和类似于人类的协调策略,促进合作并提高整体系统性能。
May, 2024