- 马尔可夫决策过程中的联邦控制
研究马尔可夫决策过程中的联合控制问题,介绍了多个学习代理的概念,使用名为联合 Q 协议(FedQ)的通信协议解决大状态空间下的 MDP,理论分析了 FedQ 协议的正确性和派生算法 FedQ-X 的样本复杂度,实验证明了方法的有效性。
- FEDSTR:AI 转型之路 - 基于 NOSTR 协议的联合学习与 LLM 培训的去中心化市场
通过基于 w3c websockets 标准的 NOSTR 通信协议,我们提出了一个在现有协议结构上构建的去中心化市场,用于联邦学习和 LLM 训练,提供了一个公平和开放的 AI 模型和 LLM 训练市场。
- 异质客户的联邦线性情境赌博机
提出了一种面向异构客户的联邦赌博学习算法,通过对客户进行聚类实现了协同赌博学习,在联邦学习设置下,该算法在所有客户端都能实现非平凡的次线性遗憾和通信成本,只要服务器在任何时候只共享一个模型。
- ICLR激励诚实通信对于联邦赌博机的应用
通过提出名为 Truth-FedBan 的激励兼容(即真实性)通信协议,本文首次展示了在联邦赌博学习中同时实现激励兼容性和近乎最优的遗憾的可能性。大量的数值研究进一步验证了我们提出的解决方案的有效性。
- 联邦语境强化学习中的公平性和隐私保证
在联邦环境中,考虑具有公平性和隐私保证的上下文多臂赌博机问题。我们提出了一种新的通信协议,使得联邦学习更加有效,并提供了确保差分隐私的算法。我们通过广泛的模拟实验证明了我们提出算法的有效性。
- 基于多智能体强化学习的连续通信消息编码技术的可扩展性
通过多智能体加强学习技术学习通讯协议和行动协议,智能体们能够决定共享哪些信息,并通过文中的实验证明,智能体们使用平均信息编码器,并结合指数和对数函数的组合来避免应用平均信息编码器后的重要信息丢失。
- KDD学习多智能体意图感知通信以实现金融业务的最佳多级执行
在这篇论文中,我们介绍了一种多智能体强化学习方法来同时执行多个交易订单,并通过可学习的多轮通信协议改善合作效果。通过使用模型无关的强化学习方法,我们提供了一种解决交易执行问题的数据驱动方法。实验证明,我们的方法在两个真实市场的数据上表现出优 - 关注力下的紧急通讯
研究计算代理人的注意机制如何更好地使用自己的新兴语言,展示注意力机制如何带来更组合和可解释的新兴语言,同时提高理解学习后的代理人间通信协议的途径。
- 社交学习智能体语言演化和分析框架
本研究提出一种模拟语言特征的通信协议,通过将高维信息编码为低维表示来分析对任务表现的影响,进而提高任务完成率,并强调了语言作为代理之间共同表征的作用及其对泛化能力的影响。
- 学习和解释代理之间交互的智能协议
本文探讨了人类与机器学习系统的交互,并提出了一个通信协议,使得机器学习决策支持系统能够实现人机两方面的可理解性。在该通信协议中,符合一定兼容性条件的智能体之间进行交互,定义了弱 / 强两种双向可理解性,使得人类和机器学习系统之间实现了智能信 - Lewis 博弈中的紧急交流:概括与过拟合
本文研究了 Lewis 信号博弈学习的问题,发现其标准目标可以分解为两个部分:协作损失和信息损失,进而揭示了其过拟合的两个潜在源(协作损失过度匹配和信息损失过拟合),并且控制了协作损失的过拟合,从而恢复出期望的属性,使得新兴语言更加结构化和 - FCMNet: 多智能体系统团队级协作的全通信内存网络
该研究基于强化学习,提出了 FCMNet 通信框架,通过方向性递归神经网络的隐藏状态作为通信信息,在具备全局通信但不可靠的情况下,实现了一个既能学习多跳通信协议,又能让代理团队制定决策的共同分散式智策略。FCMNet 具有较强的鲁棒性,在一 - ICMLPow-Wow:Pommerman 协作通信的数据集和研究
本研究通过设计 Pow-Wow 数据集,分析人类在团队竞技游戏中的语言使用,提炼有效的通信策略,并将其应用于多智能体学习中,结果表明使用通信的智能体胜率较不使用通信的基准系统高。
- 联邦式机器学习的数据注入攻击
本文旨在研究联邦机器学习中的数据投毒攻击漏洞,使用一个基于多任务学习框架的联邦学习框架,提出了一个自适应的双层优化问题,并提出了一种系统感知的优化方法,ATTack on Federated Learning (AT2FL),用于计算联邦机 - 大老鼠,被猫吃掉了!有用的深度智能代理协议语言的构思
通过开发深度代理社区自己的语言通信协议,可以在计算机之间和人机交互场景中非常有用。 提出优先考虑的一小组重点,以尽快使深度代理说出有用的原型语言。
- 理解心理学与指称游戏相互作用的语用学的涌现
本文提出一种基于理论智能和自适应强化学习算法的合作式多智能体情境下的通讯协议,使得智能体可以在没有显式设计规则的情况下自发地学习 “读懂人心”,实现了语用学的概念在多智能体通讯系统中的有效应用。
- ICML学习高效的多智体通信:信息瓶颈方法
研究了在有限带宽传输的情况下,多智能体强化学习所需的有效通信协议和分配方法,并基于信息瓶颈原则学习了一种有价值的、紧凑的通信协议及其权重调度策略。通过实验,证明了这种方法在有限的带宽条件下实现了有效通信。
- SIC-MMAB: 多人多臂赌博机中涉及通讯的同步
通过构建一种通信协议,使多个玩家之间出现冲突以便以极低成本共享信息的方式,我们提出了一种分散式算法,可实现与集中式一样的性能,以解决基于认知无线电网络的随机多人多臂赌博问题;当通信协议不能实现时,我们介绍了更适当的动态设置,并基于新算法证明 - 基于八卦通讯的异步梯度下降算法的可扩展深度学习
本研究提出了基于疏泊梯度下降算法的 GossipGraD 聊天协议,用于大规模系统的深度学习算法。通过优化 GossipGraD 的五个显著特征,最终实现对 ImageNet-1K 数据集的高效计算和分类。
- ICLR多智能体游戏中语言的出现:学习使用符号序列进行沟通
通过玩转指代博弈,研究者们发现使用可微分方式(ST Gumbel-softmax estimator)的强化学习方法能够有效地解决学习沟通的问题,从而使得交互遵循自然语言的组成性和可变性。