- 通过平衡搜索实现无新闻发布外交的人类水平表现
本文讲述了在 Diplomacy 中使用监督学习和一步向前搜索与后悔最小化的策略相结合的方式来构建代理。这个代理胜过以往的 Diplomacy 机器人,性能达到了人类顶尖水平,并且在合作和竞争中都表现出色。
- 学习如何激励其他学习智能体
本文提出了在多个智能体环境中,为每个 RL 智能体提供直接向其它智能体给予奖励的能力,并通过学习后的激励函数影响其它智能体,从而达到协作的目的。实验结果显示,在 challenging general-sum Markov games 中, - AAAI预测两人重复博弈中的计划和行动
该研究提出了一种基于贝叶斯方法的算法模型,以预测人工智能代理在 2 个 2 矩阵博弈中与其合作者的行动,计划和意图,并采用两种预测方法(MAP 和 Aggregation),结果表明该模型预测行动和计划的准确度均达到 88%以上,同时表明 - 战术无线网络中的协作频谱感知
本文提出一种应对网络安全攻击的战术通信系统的通道感知、协作和传输算法,通过节点感知、合作和选择疑似未被攻击的信道来提高网络频谱知识和减少受到攻击的传输频率。
- ICML顺序协作贝叶斯推理
研究了合作推理的基础理论,提出了一种新方法 SCBI 来分析一致性,收敛率和稳定性,并表明合作对于特定情况不仅是可能的,而且从理论上讲在一般情况下也是可行的,以及探讨了人类之间和人机之间合作的意义。
- 雾计算网络中的容量感知边缘缓存
研究雾计算网络中的边缘缓存,通过考虑有限的雾缓存容量和基站连接容量,提出了一个容量感知的边缘缓存框架,并通过允许雾节点和云数据中心的协作来将平均下载时间(ADT)最小化, 通过多类处理器排队过程将此问题建模,提出了一种基于 ADMM 的算法 - 基于图的多任务学习:一种分布式、流式机器学习方法
本文是多任务学习的一篇综述,主要介绍了在分布式数据和网络系统上学习多个相关任务的新策略以及合作规则如何促进不同任务相关性模型,同时也解释了如何和何时合作的方式比非合作的策略更有效。
- AAAI社区认知一致的多智体强化学习
本论文将邻域认知一致性引入到多智能体强化学习中,提出了邻域认知一致性深度 Q-learning 和 Actor-Critic,实验结果表明该方法优于现有的多智能体强化学习方法。
- 注意力多智能体 DDPG 模型中团队伙伴的动态联合策略建模
本文提出了一种基于注意力机制的多智能体强化学习方法 ATT-MADDPG,通过采用集中式批判者和注意力机制来有效建模团队成员的动态政策,并在基准任务和实际任务中的实验结果证明了其性能优于现有的基于规则和强化学习的方法。
- ICLR图卷积强化学习
本文提出了一种使用图卷积强化学习的方法,通过使用关系内核捕获代理之间的相互作用来适应多代理环境的动态,并利用逐渐增大感受野的卷积层产生潜在特征来学习合作,此外,为了保持一致性,还使用了时间关系正则化方法。实验表明,该方法在各种合作场景中显着 - NIPS利用信息正则化学会共享与隐藏意图
本研究提出一种信息理论规则化方法,以学习多智能体强化学习中的合作和竞争策略,结果在两个简单的非对称信息博弈中表明,使用我们提出的方法学习到的合作(竞争)策略会带来更多(更少)的奖励。
- 合作多智体强化学习中的教学学习
本文提出了一种新的算法,名为 Learning to Coordinate and Teach Reinforcement(LeCTR),通过在协作多智能体强化学习中使每个代理都学习何时提供何种建议,从而改善整个团队性能和学习效果。实证比较 - ICLR通过协商实现的新兴沟通
通过研究 negotiation environment 中不同类型 agent 之间的交互过程,以及不同类型 agent 是否会进行 cheap talk,作者探讨了 cooperation 在语言产生中的必要性问题。
- 公平厌恶提高了跨时社会困境中的合作
研究探讨了多智能体强化学习在社会困境问题上的局限性及由于人类存在的不平等厌恶行为对解决社会困境问题的重要作用。
- 深度多智能体强化学习在顺序囚徒困境合作中的应用
通过提出一种序列囚徒困境游戏和使用深度多智能体强化学习方法进行研究,本文探讨互相合作演化趋势。实验表明,该策略可避免被攻击并与合作的对手实现合作。
- 具有不完全信息的社会困境中的后果主义条件合作
构建一个条件纯合作的智能体来解决社会困境问题,使用强化学习技术,仅仅基于结果而非意图,可以构建出好的策略,在真实社会困境中有效,并且探讨分析了仅仅基于结果的限制和理解行动背后意图的必要性。
- 对抗学习感知的学习
LOLA 是一种用于多智能体学习的方法,在 agent 间显式地考虑其他 agent 的学习,以达到识别和利用合作的目的。
- 宽松的多智能体深度强化学习
本研究将宽容度应用于多智能体深度强化学习中,通过控制弱化负面策略更新所用的温度值,引入了乐观主义来更新价值函数,从而促进了协作,并在长期规划进程中很可能收敛到最优策略。实证评估表明,相比于标准和调度 HDQN 代理,LDQN 代理更有可能在 - 使用深度强化学习维持复杂社交困境中的合作
在社会困境中建立 AI 代理能够在个体私利和集体福利间取得平衡,研究人员修改强化学习方法来构建行为明了,好相处,可激怒且宽容的代理,通过理论与实验表明这些代理能在马尔可夫社会困境中维持合作。
- 预测人类合作行为
本文介绍了第一个基于计算模型的人类行为在重复性囚徒困境博弈中的研究,该模型通过整合 168,386 个人类的决策数据,实现了成功的数据拟合和预测行为的目的,并在实验设计中展示了如何最好地促进人类合作。