- 大善大恶与独霸型 GPT:合作与交易游戏中大型语言模型情感决策分析
通过对大型语言模型的实验,研究表明情绪对其行为的决策和人类决策的关联存在重要影响,其中 GPT-4 在情绪状态下表现出与人类类似的行为响应。
- 培育多智能体合作的认知洞察与稳定联盟匹配
我们提出了一种新的匹配联盟机制,利用不同 ToM 水平的智能体的优势,明确考虑信念一致性和专门能力,在形成联盟时寻找最大程度促进合作行为并确保长期可行性的稳定联盟,从而将 ToM 应用于设计多智能体系统,提供更复杂和类似于人类的协调策略,促 - eQMARL: 量子通道上分布式协作的纠缠量子多智能体强化学习
提出了一种名为 eQMARL 的新型框架,通过量子通道促进协作,并通过量子纠缠的分裂评论家消除本地观察共享,实验结果表明,eQMARL 相较于传统的分裂和完全中心化的经典和量子基线,能够在更短的时间内收敛到合作策略,且拥有更高的整体分数,与 - 平衡相似性与互补性:联邦学习
通过平衡相似性和互补性,我们引入了一种名为 FedSaC 的新型框架,在移动设备和物联网系统中实现了最佳合作网络,以优化模型相似性和特征互补性的加权和,进而解决了数据异质性和多模态情况下的合作问题,大大超过了其他最先进的联邦学习方法。
- 联邦边缘推理中的因果影响
考虑了使用未标记的流数据进行推理的具有异质代理和连接性的背景。代理相互合作,通过交换本地推断以及通过融合中心,使用因果框架评估代理对整体决策的实际影响。研究了反映不同代理参与模式和融合中心策略的各种场景,并推导出表示每个代理对联合决策的因果 - ICLRLOQA:带有对手 Q 学习意识的学习
本文介绍了一种名为 LOQA 的分布式强化学习算法,用于在部分竞争环境中优化代理个体效用并促进对手之间的合作,在统一代理应用中取得了良好的性能。
- 合作演化压力和边际效益递减可能解释费米悖论:关于超级人工智能的特点
通过演化方法,道德基础可以解释为合作问题的适应。遵循广义的 ' 演化 ',满足演化条件的演化人工智能将受到与生物实体相同的合作演化压力。本文着重讨论随着物质安全和财富的增加,合作的适应性增强,针对人类、其他社会和人工智能。随着对物质资源利用 - LLM 增强型自治代理能够合作吗?— 通过熔炉验证其合作能力
大语言模型在自主代理中的合作能力及其与 Melting Pot 环境中的应用和评估
- 超越联合演示:高效多智能体强化学习的个性化专家指导
在多智能体强化学习中,引入个性化专家演示,为每个个体智能体或团队中的每个个体智能体类型定制,以实现合作任务,并展示其在离散和连续环境中的性能优于现有算法。
- 社会困境中的合作:多主体,人 - 主体与更多:一项综述调查
探讨了人工智能与合作在社会困境中交叉的三个关键领域,包括多智能体合作、人工智能与人类合作以及运用人工智能增强人与人之间的合作,并提出了未来研究方向。
- 不确定激励一致下的紧急合作
不确定性降低了代理人在合作行为中的能力,但通过声誉机制和内在奖励可以增强合作环境中的代理人能力并大幅提升混合动机环境中的合作。
- AAAI基于内在价值驱动的合作多智能体系统的强化学习
该研究论文提出了一种层次化的复合内在价值强化学习模型(IVRL),用于描述多智能体在协作中的复杂行为。通过理性地组织个体的各种需求,研究表明群体能够以更低的成本实现更好的性能。
- 语义计算对组织有效性的贡献:从组织理论到基于语义建模的实践
通过在一个地方政府的复杂基础设施项目中实现和验证本体论,该研究使用语义学方法对协调与合作进行建模和增强,提出了一个包含相关依赖的鲁棒保存型细化组织模型,以及如何通过改变组织内的依赖结构来减轻协调与合作风险等实际见解。
- TAPE: 基于智能体拓扑的合作多智能体策略梯度
提出了一个代理拓扑框架,通过在策略梯度中考虑其他代理来实现协作与解决分布一致性不匹配问题的折中方案。该代理拓扑可以使代理使用联盟效用作为学习目标,避免了全局效用或局部效用带来的问题,并通过实验结果表明能够改善 TAPE 的性能。
- 情景依赖的因果影响基础下的合作多智能体强化学习
提出了一种名为 Situation-Dependent Causal Influence-Based Cooperative Multi-agent Reinforcement Learning (SCIC) 的新型多智能体强化学习算法,通 - 多智能体学习中的合作回顾
多智能体学习是一门涉及博弈论、经济学、社会科学和进化生物学等众多学科交叉的主题。本文概述了多智能体学习的基本概念、问题设置和算法,包括增强学习、多智能体序列决策、多智能体合作的挑战,对最近进展进行了全面综述和相关度量评估,并讨论了该领域的开 - 诚信为上策:定义与缓解 AI 欺诈
AI 系统中存在欺骗性代理对安全性、可信度和合作性构成挑战。本文针对代理为达到目标而进行欺骗的问题展开研究,引入了基于哲学文献的结构因果游戏中欺骗的形式定义,并且给出了用于减缓欺骗的图形标准。
- 图灵测试:AI 聊天机器人与人类的行为相似吗?
我们对人工智能聊天机器人进行了图灵测试,研究它们在一系列经典行为游戏以及测量个性特征的传统心理调查中的行为。ChatGPT-4 在图灵测试中通过,表现出与来自 50 多个国家的数十万人的行为相似的人类化行为和个性特征。聊天机器人还根据之前的 - 基于环境影响的多智能体强化学习
提出了环境影响多智能体强化学习(EMuReL)方法,通过对每个智能体估计其他智能体的 “环境影响”,即当前环境状态与在没有其他智能体存在的假设环境之间的差异,来促进合作并增强个体对集体结果的影响。实验证明,基于 EMuReL 训练的智能体在 - 通过多智能体强化学习解构合作与排斥
通过多代理强化学习模拟,我们发现网络重连有助于互相合作,即使一个代理人总是主动提供合作。此外,我们还发现排斥本身不足以促使合作出现,反而是通过合作的学习而出现,并且存在的合作因为排斥而得到加强。这些发现对于实现合作与网络重连的必要条件和机制