使用少量数据发现智能体学习的方式

Jul, 2023

使用少量数据发现智能体学习的方式

Discovering How Agents Learn Using Few Data

Iosif Sakos, Antonios Varvitsiotis, Georgios Piliouras

TL;DR本文提出了一个用于在短暂的系统轨迹爆发中实时识别控制智能体动态的理论和算法框架。通过使用多项式回归识别代理程序的动态，我们对捕捉代理行为的基本假设或期望的副信息约束进行补偿，使用二次优化进行计算，这导致一系列越来越好的逼近真实代理行为动态的逼近。

Abstract

decentralized learning algorithms are an essential tool for designing multi-agent systems, as they enable agents to autonomously learn from their experience and past interactions. In this work, we propose a theor

decentralized learning algorithms multi-agent systems identification of learning dynamics polynomial regression sum-of-squares optimization

发现论文，激发创造

关于多智能体非线性滤波和学习的动态

本篇论文研究了具有非线性滤波和学习动态的多智能体网络系统的行为，提出了多智能体网络系统中一个智能体的行为的一般表达式，并给出了实现协同学习行为的条件。同时，还介绍了该框架在分布式学习和联邦学习场景中的应用。

Sep, 2023

利用集群系统识别学习个性化模型

该研究提出了一种从观察多种系统动态下的轨迹中学习线性系统模型的算法，其中系统根据相似性被分为不同的簇，并推导出一种通过估计系统簇身份并估计动态来更新每个簇模型的方法，从而实现更高效和个性化的系统识别过程。

Apr, 2023

基于高斯过程回归的分布式事件触发在线学习，用于多智能体系统的安全共识

利用高斯过程学习补偿多智能体系统中未知的组成部分，并通过基于概率保证的预测误差边界确保了所提出的基于学习的控制器的控制性能。

Feb, 2024

从观察中学习集体行为

通过设计合适的损失函数，利用变分逆问题方法，我们提出了一系列学习方法，用于识别动态系统的结构，以了解相互作用代理系统中的新兴行为，能够有效处理高维观测数据，包括一阶和二阶动态系统的观测数据，考虑观测 / 随机噪声、复杂的相互作用规则、缺失的相互作用特征和实际世界观测，在学习方法中固有地提供了降维能力。

Nov, 2023

众多战略代理系统中的分散式学习

我们提出了一种计算多智能体系统中闭环最优策略的方法，并证明了在拥有无限个智能体的系统中成功收敛到最优行为，而且我们的方法具有完全分散的特性，能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。

Mar, 2018

AI-Lorenz：一种用于深度学习物理推理的黑盒和灰盒混沌系统鉴定框架

通过从嘈杂和稀疏的可观测数据中识别微分方程，我们开发了一个框架，学习建模复杂动力行为的数学表达式，从而填补了基于经验数据而非已知物理机制的系统的数学模型的空白。

Dec, 2023

多智能体系统中的策略表示学习

我们提出了一个用于多智能体系统中建模代理行为的泛化学习框架，将代理建模作为表示学习问题，并使用模仿学习和代理识别的算法进行无监督学习，以构建代理策略的表示形式。在具有挑战性的高维连续控制和通信合作环境中，我们经验证明该框架对于使用深度强化学习进行无监督聚类和策略优化的监督预测任务具有实用价值。

Jun, 2018

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

基于数据的座标和控制方程式发现

本文介绍一种基于稀疏回归和自编码器的算法，通过在简化空间中寻找非线性系统的动力学描述，实现了均衡模型复杂性和描述能力，同时提升了解释性和推广能力，同时在多个高维非线性系统中测试了该方法的优势。

Mar, 2019

基于图神经网络的估计误差最小化的分散学习策略

在多跳无线网络中，通过分布式可扩展的采样和传输策略以及图神经网络结构，优化采样和远程估计研究的主要问题包括缓存并从其他代理处获得最新样本、无线冲突通道和各个网络节点之间的决策制定。

Apr, 2024