本文通过针对一名特定智能体的定向攻击,研究了协作多智能体强化学习系统的不稳定性,同时引入了一种新的攻击方式,在StartCraft II多智能体基准测试上将团队胜率从98.9%降至0%。
Mar, 2020
通过在多智能体协作中引入Partner-Aware策略,我们提出了一种去中心化的多臂赌博问题并进行了分析,理论和实验表明该策略实现了对数遗憾,并且能够在人工智能和人机合作中获得较好的表现。
Oct, 2021
本文提出InfoPG算法,以最大化相互信息来优化多智能体协作决策,有效地在多个复杂任务中提高了学习效率和总奖励。
Jan, 2022
本项目提出了一种基于区块链和智能合约的去中心化机器学习激励机制,为设备提供激励并检查反馈学习架构行为,从而实现去中心化和机会式学习。
Apr, 2023
该研究提出了一种名为ROMANCE的方法,通过演化生成辅助对抗攻击者,使训练的策略在训练期间遭遇多样性和强大的辅助对抗攻击,从而实现对策略扰动的高鲁棒性。该方法在多种场景中表现出与其他基准方法相当甚至更好的鲁棒性和泛化能力。
May, 2023
该研究通过开发一种完全分散的鲁棒上置信界算法,将信息混合步骤与不一致和极端值的截断步骤结合起来,以恢复分散合作多臂赌博中的有效行为,提高正常代理的表现。该算法在遗憾方面不劣于单代理UCB1算法,并且所有正常代理的累积遗憾严格优于非合作情况。实验证实了这一框架的优点。
Oct, 2023
该论文系统地回顾了两种全面分散设置下的全面分散方法,即最大化所有代理的共享奖励和最大化所有代理的个人奖励之和,并讨论了未来研究方向。
Jan, 2024
新兴分布式人工智能系统通过稳健性保证、隐私保护和公平意识在分布式学习中改善了安全、隐私和公平的问题。本文提供了分布式学习的不同架构概述、围绕对抗攻击、隐私保护和公平治理的对策分类,并讨论了面临的挑战和未来研究方向。
Feb, 2024
我们研究了一个鲁棒的多代理多臂赌博问题,其中多个客户或参与者分布在完全去中心化的区块链上,可能有些参与者是恶意的。我们通过将区块链中先进的技术和新颖的机制结合到系统中,为诚实参与者设计了最优策略,以有效保证诚实参与者获取的累积奖励。通过遗憾分析,我们首次证明了所提算法在区块链中的优化上的理论保证,并与无恶意参与者的多代理多臂赌博问题以及具纯拜占庭攻击的鲁棒多代理多臂赌博问题保持一致。
本研究针对去中心化优化在隐私和安全方面的新风险进行了探讨,提出了安全的去中心化优化与学习框架和算法的进展。关键发现是隐私保护算法与抗干扰算法相结合,为解决大规模决策问题和训练大型机器学习模型提供了有效保障。
Aug, 2024