神经收益机器:预测团队成员间公平和稳定的收益分配
本研究提出了一个新的机器学习模型解释框架FAE(Formulate,Approximate,Explain)。该框架利用了Shapley值和博弈论方法进行解释,并提供了置信区间和对比解释来解释黑盒子模型在不同数据集上的结构。
Sep, 2019
本研究通过对称的零和矩阵游戏,证明了联盟形成可以被看作是一个社会困境,并且实证表明,在多代理强化学习中,天真的方法往往失败。同时,我们引入了点对点的合约机制来发现和执行联盟。最后,我们将我们的代理模型推广到了包括时间延伸合约的情况,并提出了进一步研究的机会。
Feb, 2020
研究团队提出使用奖励机器(RM)对协作多智能体强化学习中的团队任务进行编码,分解任务成子任务分配给个体智能体去完成,提出一种分布式完成子任务的算法,提供了一种自然去中心化学习的方法,并在实验中验证了所提出的方法非常有效。
Jul, 2020
本文提出了一种基于Shapley分析实现多智能体系统中个体贡献度评估的方法,并利用层次化知识图谱用于降低计算复杂度,同时通过测试证明了该方法不仅能评估团队中个体的重要性,还能揭示实现最佳策略所需的特征属性。
Dec, 2022
本研究提出了计算Harsanyi-Shapley值的简单公式,探讨了将其推广到随机游戏中的两种方法,并在三个或更多玩家的随机网格游戏中通过实证验证了一种使用广义Q-learning算法计算HS值的方法。
Mar, 2023
使用合作博弈理论的解决概念来解决修剪神经网络的问题。引入了一种名为博弈理论辅助修剪(GTAP)的方法,通过游戏论解法根据神经网络中神经元对预测准确性的联合影响估计来减小网络的规模同时保持其预测准确性。经过实证评估,该方法在参数数量和模型准确性之间的权衡方面优于现有方法。
Nov, 2023
合作博弈理论在当代人工智能中有各种应用,包括可解释的机器学习、资源分配和协同决策。本文提出了一个旨在优化展示联盟价值序列的框架,以有效缩小合作博弈中玩家期望与实际结果之间的差距。通过研究玩家对缺失联盟价值的乐观补全及其产生的差距的分析特性,我们开发了在线和离线方法来最小化这一差距,并在实际场景中对算法的性能进行了实证研究并调查了展示联盟价值的典型顺序。
Feb, 2024
建立一个从合作博弈理论的视角解释图神经网络在图基策略学习中使用的联合 Q 值表示法,并基于该理论提出了一种新的算法来补充 GPL 中被忽视但有助于学习的关键特征。通过实验证明了该算法在动态团队构成中与 GPL 的性能比较的正确性。
Feb, 2024
本论文通过合作博弈理论研究了多智能体强化学习中的信用分配问题,提出了一种基于Markov Shapley值的信用分配方案,并应用于能源网络的真实问题上。
Feb, 2024