- 联邦边缘推理中的因果影响
考虑了使用未标记的流数据进行推理的具有异质代理和连接性的背景。代理相互合作,通过交换本地推断以及通过融合中心,使用因果框架评估代理对整体决策的实际影响。研究了反映不同代理参与模式和融合中心策略的各种场景,并推导出表示每个代理对联合决策的因果 - 网络合同设计的新视角:异质、同质、非近视代理人和团队生产
该论文主要研究了在线学习视角下的重复主体 - 代理问题,研究了当主体每轮与单个代理进行合同交互时的三种不同情境,并提出了不同的方法和技术来设计学习算法。此外,还研究了团队生产模型,并提出了一种有效找到最优合同的方法。
- SCAFFLSA: 量化和消除联邦式线性随机逼近和时序差异学习中的异质性偏差
本文对联邦线性随机逼近(FedLSA)算法进行了非渐进分析,定量化了异质代理的本地训练引入的偏差,并调查了算法的样本复杂度。我们展示了 FedLSA 的通信复杂度与所需精度 ε 的多项式缩放,从而限制了联邦的好处。为了克服这一问题,我们提出 - 异质具身多智能体协作
通过建立基于 ProcTHOR-10K 数据集的异构多智能体整理任务,本研究提出了一种基于错位物体检测、合理容器预测以及基于握手的群组通信机制的分层决策模型,通过大量实验证明了所提模型的有效性。
- 基于奖励函数相似性的选择性模仿
研究了在多个异构智能体追求不同目标或目的的情况下,模仿行为不太可能是一种有效的策略,而人们会更倾向于模仿那些他们认为与自己有相似奖励函数的人的行为,并通过归纳偏差这一方法来进行选择。
- IJCAI具有同类特性代理的战略资源选择
提出了一种具有不同类型特征的异质自私玩家的资源选择博弈模型,类似于 Schelling Games,对资源使用的最低同类型代理人比例指定了容忍度阈值 τ。该模型考虑了均衡的存在性和质量,以及社会福利最大化的复杂性,并考虑了有限理性模型,其中 - 异质智能体强化学习
本文提出了基于 HARL 算法的新框架 HAML,将多智能体强化学习的合作扩展到异构智能体模式,并对该框架下的多种算法进行了验证和比较。测试表明,HARL 算法在协调异构智能体方面的稳定性和有效性要优于现有的 MA 对应物。
- 如何协作训练异质强化学习代理,使其适应稀疏回报的环境?
本研究结合内在动机和传递学习的思想,探讨了基于行动者 - 评论家模型共享参数和结合内在动机信息的多智能体协同学习算法,在探索和学习效率上有一定提升,并强调正确调节外部和内部奖励间的重要性,以避免不良学习行为。
- 异质协作体现出的紧急沟通解释
本论文通过介绍一个协作的多物体导航任务 CoMON,并研究不同通信机制,分析它们的通信模式,证明了学习出来的通信可以落实于 Agent 观察和环境的 3D 结构。
- 协作异构多智能体强化学习的均场控制近似
本论文介绍了平均场控制理论(Mean field control)在解决包含 $N_{pop}$ 个异构 agents 的协作多智能体强化学习问题中的应用,提出了三个不同的情况,分别考虑了错误率有不同的误差上限。最后,提出一个基于 自然策略 - 异构轨迹预测的无限邻域交互
本研究提出了一种基于无限邻域交互网络的异构多类别交通态势预测方法,通过适应各种交互要素生成混合特征,并通过高层级图注意力模块实现类别间和代理间的交互,从而提高了预测性能。
- PerSim:基于个性化模拟器的异构智能体数据高效离线强化学习
本文提出基于模型的离线强化学习方法 PerSim 来解决数据稀缺性问题,通过学习每个智能体的个性化模拟器来提高性能并同时学习个性化策略。
- AAAI利用代理器类信息专门化异构多智能体强化学习中的智能体间通信
该研究提出了一种使用图神经网络表示多智能体通信能力的方法,并介绍了一种神经网络架构,该架构通过学习每对智能体类别间交换消息的个体转换,从而在完整的合作异构多智能体任务中专门优化通信,并在不同智能体类别操作的环境中取得了相当或更优的性能表现。
- 少数游戏中适应性竞争的结构
本文分析了一个类别的游戏,即异构代理商因为处于少数人群而受到奖励。我们发现这样的游戏在代理商之间存在着自适应,从而进入一种效率低下的非有效性阶段,与此同时出现了代理商间的 Emergent Cooperation,并提出策略空间维度与游戏代