本文用于分析分布式情况下的非线性滤波问题,提出了一种针对多任务场景的基于核的算法,并对其进行了模拟基准测试,最后详细说明了目前尚未解决的问题和未来的研究方向。
Apr, 2017
本文提出了一个用于在短暂的系统轨迹爆发中实时识别控制智能体动态的理论和算法框架。通过使用多项式回归识别代理程序的动态,我们对捕捉代理行为的基本假设或期望的副信息约束进行补偿,使用二次优化进行计算,这导致一系列越来越好的逼近真实代理行为动态的逼近。
Jul, 2023
我们提出了一种计算多智能体系统中闭环最优策略的方法,并证明了在拥有无限个智能体的系统中成功收敛到最优行为,而且我们的方法具有完全分散的特性,能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。
Mar, 2018
本文探讨了强化学习代理群体的复制者方程,证明基于环境反应的互动,代理们以自私的方式建模自己的环境,从而自然地出现游戏动力学,针对石头剪刀布游戏的应用证明了群体学习动力学具有多种多样的竞争和合作行为,包括准周期性,稳定极限环,间歇性和确定性混沌 – 这些行为在由我们导出的广义重复子方程描述的异质多智能体系统中应该得到预期。
Apr, 2002
利用高斯过程学习补偿多智能体系统中未知的组成部分,并通过基于概率保证的预测误差边界确保了所提出的基于学习的控制器的控制性能。
Feb, 2024
本研究提出了一种协作多智能体强化学习的共识学习方法,通过基于本地观察的共识学习,在分散式执行期间将推断出来的共识明确地作为智能体网络的输入,从而发展他们的合作精神,并在若干完全合作任务上获得了令人信服的结果。
Jun, 2022
本文综述了多智能体深度强化学习中的非稳态问题,包括集中式训练、对手策略表示学习、元学习、通信和去中心化学习等方法,并列举了未来研究的可能方向。
Jun, 2019
本文讨论了网络中观察到噪声环境下潜在多维非线性现象的基于核的学习问题,提出了一种学习算法,仅需要关于研究对象的轻微先验知识,并提供了相应的非渐近高概率误差界限的模型。本文还提供了方法的非渐近分析和数值模拟结果。
Apr, 2024
利用自监督神经网络模型从观察到的轨迹数据中恢复相互作用网络并预测个体动力学的研究,应用于耦合粒子和耦合振荡器(Kuramoto)的两个动力系统。
Oct, 2023
通过设计合适的损失函数,利用变分逆问题方法,我们提出了一系列学习方法,用于识别动态系统的结构,以了解相互作用代理系统中的新兴行为,能够有效处理高维观测数据,包括一阶和二阶动态系统的观测数据,考虑观测 / 随机噪声、复杂的相互作用规则、缺失的相互作用特征和实际世界观测,在学习方法中固有地提供了降维能力。
Nov, 2023