网络物理游戏

Jul, 2024

Cyber Physical Games

Warisa Sritriratanarak, Paulo Garcia

TL;DR多智能体在物理系统内进行协作或对抗性游戏，通过探讨其性质、建立算法模型和评估结果，研究了协作和对抗版本的迭代布尔游戏，验证了提出的模型的有效性，并提出了继续发展我们对于物理系统的理解以及如何设计在这样的环境中操作的智能体所需要的研究方向。

Abstract

We describe a formulation of multi-agents operating within a cyber-physical system, resulting in collaborative or adversarial games. We show that the non-determinism inherent in the communication medium between a

发现论文，激发创造

基于对抗性韧性学习架构的复杂智能建模，探索和运行复杂的网络物理系统

本文介绍了 Adversarial Resilience Learning（ARL）概念，其定义了两个代理类，即攻击者和防御者，这两个代理机器人在没有任何领域知识的情况下互相探索和训练，并且可以使用广泛的模型自由和模型基础的深度强化学习算法，例如在复杂的电力网络上运行实验，以实现复杂环境下的检查和弹性运行。

May, 2020

进化博弈理论平方：自发演化的零和博弈中的进化代理

本文研究了一类竞争场景，其中代理和它们玩的游戏都在时间上演化。该系统中的信息论保存定律、泊松回归和 Nash 均衡特征表明，尽管代理和游戏共同演化，但其结果仍然遵循一定的规律。同时，针对这种共同演化的网络游戏提出了预测代理行为的多项式时间算法。

Dec, 2020

基于采样的反应综合技术在非确定性混合系统中的应用

本文介绍了一种基于采样的策略综合算法，用于处理具有复杂连续动态的非确定性混合系统在时间和可达性约束下的情况，其目的是综合出一个反应式策略以保证满足所有可能对手步骤的要求。实验表明，该算法具有广泛适用性并一直领先于现有技术。

Apr, 2023

平均场博弈中分散代理的网络通信

本研究将网络通信引入到平均场博弈框架中，通过分散学习来改善纯独立学习的情况，并通过理论和实验表明，网络方法可以加速收敛且具有鲁棒性和灵活性。

Jun, 2023

多智能体验证与控制的概率模型检验

概率模型检查是一种在不确定性或随机性背景下对软件或硬件系统进行形式化自动推理的技术。该技术综合了来自多个领域的思想和技术，包括逻辑、自动机理论、图论、优化、数值方法和控制。最近，概率模型检查还扩展到整合博弈论中的思想，特别是使用随机博弈模型和均衡解概念来正式验证具有不同目标的多个理性代理之间的交互。这提供了一种灵活推理有关代理以对抗或协作方式行动的手段，并为人工智能、机器人和自主系统等领域解决新问题带来机遇。本文概述了该领域的一些进展，并强调了它们已经被使用的应用。我们讨论了概率模型检查的优势如何应用或有潜力应用于多智能体系统，并概述了在这一领域取得更进一步的关键挑战。

Aug, 2023

对抗马尔可夫博弈：关于自适应基于决策的攻击与防御

通过理论和实证研究，我们解决自适应对手提出的挑战，并开发自适应防御策略，从而确定在部署在现实世界中的基于机器学习的系统中确保鲁棒性的有效方法。

Dec, 2023

带有代表性玩家的图上平均场博弈：分析与学习算法

我们提出了一种在连续状态和动作空间上利用代表性玩家进行离散时间图博游戏的建模方法，用于研究具有异质相互作用的随机博弈。相比采用无穷多个玩家的广泛采用的建模方法，该建模方法具有哲学和数学优势。我们在温和的假设下证明了图博均衡的存在性和唯一性，并展示了该均衡可用于构造网络上有限玩家博弈的近似解，这在分析和求解中面临维数灾难的挑战。我们开发了一种在线无预言学习算法来数值求解均衡，并提供了其收敛的样本复杂度分析。

May, 2024

具有函数逼近和经验平均场估计的均场博弈网络通信

本研究解决了现有均场博弈算法在处理大规模状态空间和群体依赖政策时的局限性。通过引入函数逼近和新的算法，使得去中心化代理能够基于局部邻域估计全局经验分布并通过通信优化这一估计。实验结果显示，网络化代理在功能逼近设置中优于独立和集中代理，揭示了通信在均场博弈中的潜在影响。

Aug, 2024

用于AI控制的游戏：AI部署协议的安全评估模型

本研究解决了不受信任的AI部署协议的安全性和有效性评估问题。我们提出了AI-Control Games，作为一种多目标、部分可观察的随机博弈的形式化决策模型，并发展了通过将其简化为一组零和部分可观察随机博弈来寻找最佳协议的方法。研究结果显示，我们的形式化方法在现有设置中显著提高了协议评估的效果，并为新设置中的协议评估提供了新的见解。

Sep, 2024

在随机游戏中预测无知对手

本研究解决了在并发随机游戏中系统性预测无知环境的动作和策略的问题。我们提出了一种有限信息状态机的合成方法，并引入了一致性概念，以确保状态机跟踪的信念状态与实际信念状态保持在固定距离内。实验结果表明，该方法在医疗手术和家具组装等任务中成功预测环境的策略和动作，从而最大化奖励。

Sep, 2024