关于有界代理收敛性的研究

Jul, 2023

On the Convergence of Bounded Agents

David Abel, André Barreto, Hado van Hasselt, Benjamin Van Roy, Doina Precup...

TL;DR当代理的行为或性能在每个环境状态停止变化时，代理收敛；本文提出了对有界代理的两种收敛观点，即受到输入状态的限制和仅当内部状态发生变化时才改变性能；通过证明了这两种定义的基本属性和性质，解释了这一领域的核心思想。

Abstract

When has an agent converged? Standard models of the reinforcement learning problem give rise to a straightforward definition of convergence: An agent converges when its behavior or →

agent convergence reinforcement learning bounded agents behavior performance

发现论文，激发创造

有限理性代理人的决策制定

通过将有限理性概念与信息论观点相结合，将其融入博弈论框架中以预测自己及其它机器人或人类邻近代理的行为以及在其计算限制下采取行动，模拟与实际实验都证明这种方法可以帮助机器人推理其他代理的不同智能水平并计算出合理的策略。

Oct, 2022

提高代理学习的方法：保证所有回合实现目标

强化学习是解决环境并实现目标达成的框架，该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明，该算法能够增强学习效果并保持目标的达成性质。

May, 2024

众多战略代理系统中的分散式学习

我们提出了一种计算多智能体系统中闭环最优策略的方法，并证明了在拥有无限个智能体的系统中成功收敛到最优行为，而且我们的方法具有完全分散的特性，能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。

Mar, 2018

多智能体 Q 学习动态的渐近收敛与性能

本论文研究了探索 - 利用困境下的平滑 Q 学习动态，并提出了一个探索速率的充分条件，使得该方法在任何游戏中都能收敛到唯一的均衡，这一结果适用于权重势博弈和权重零和多矩阵游戏。论文还比较了 Q 学习动态和实现均衡所能达到的社会福利，提供了一种充分条件，即使动态不收敛，Q 学习动态仍能超过均衡。

Jan, 2023

多智能体竞赛中的探索 - 利用：有界理性下的收敛

通过研究充分考虑游戏奖励和探索成本平衡的原型学习模型 Q-learning，我们证明在使用积极探索率的具有异质性学习代理的权重零和多元矩阵游戏中，Q-learning 总是收敛于唯一的量刑 - 反应均衡（QRE），这是有界理性下游戏的标准解决方案概念，并展示了 Q-learning 在竞争环境中的快速收敛性，而无需任何参数微调，在竞争多代理环境中的均衡选择问题提供了算法所需的保证。

Jun, 2021

多智能体学习的稳定性：多人网络博弈中的收敛性

多智能体学习在网络游戏中表现出复杂的动态特性，通过研究 Q 学习的动态特性，确定了在任何网络游戏中收敛到唯一均衡的充分条件，并且在适当的网络条件下，可以实现任意数量智能体的稳定学习动态。

Jul, 2023

多智能体强化学习中影响长期行为

本文提出了一个基于 farsighted objective 的新优化目标以及一种新的多智能体强化学习方法，实现了优于现有基线结果的长期性能。

Mar, 2022

解决持续任务强化学习中无界状态空间问题

本篇论文探讨了深度加强学习算法在面对状态空间无法预测，强烈依赖于重置时的困境。通过引入 Lyapunov 启发式奖励塑造方法，策略学习可以更快、更稳定地收敛到最优解

Jun, 2023

强化学习中的受限制探索与最优性保护

在强化学习问题中引入概念的受限探索与最优保持，在满足某些约束时保持学习的最优性，通过引入监督器控制行为，建立了一个反馈控制结构来建模无约束学习过程的动态，为知道确定性环境的强化学习问题建立了必要条件和充分条件。

Apr, 2023

情节性强化学习的稳态分析

本文证明了每个有限时间决策任务的情节学习环境在任何行为策略下都有一个独特的稳态，并且代理输入的边缘分布在几乎所有情节学习过程中确实会收敛到稳态分布。此观察支持一种反转常规智慧的思维方式。基于这个观察，本文围绕着几个重要的概念统一了情节式和持续式强化学习，并提出并验证了一种有助于在现实 RL 任务中实现快速稳态收敛的扰动方法。

Nov, 2020