基于 Q 的均衡

Apr, 2023

Q-based Equilibria

Olivier Compte

TL;DR本文研究了一类基于 Q 学习的策略规则，在不同的监控技术下，寻找平衡偏差以及如何将偏好修正到 Q 值中，以实现更有效的合作和均衡策略。

Abstract

In dynamic environments, q-learning is an adaptative rule that provides an estimate (a Q-value) of the continuation value associated with each alternative. A naive policy consists in always choosing the alternative with highest Q-value. We consider a family of Q-based →

q-learning policy rules equilibrium biases monitoring technologies classic games

发现论文，激发创造

多智能体竞赛中的探索 - 利用：有界理性下的收敛

通过研究充分考虑游戏奖励和探索成本平衡的原型学习模型 Q-learning，我们证明在使用积极探索率的具有异质性学习代理的权重零和多元矩阵游戏中，Q-learning 总是收敛于唯一的量刑 - 反应均衡（QRE），这是有界理性下游戏的标准解决方案概念，并展示了 Q-learning 在竞争环境中的快速收敛性，而无需任何参数微调，在竞争多代理环境中的均衡选择问题提供了算法所需的保证。

Jun, 2021

基于模型的贝叶斯探索

本文论述的是如何在强化学习的算法中基于概率分布估算每个行动的信息价值，并选择能够平衡探索与利用的最佳行动。

Jan, 2013

多智能体 Q 学习动态的渐近收敛与性能

本论文研究了探索 - 利用困境下的平滑 Q 学习动态，并提出了一个探索速率的充分条件，使得该方法在任何游戏中都能收敛到唯一的均衡，这一结果适用于权重势博弈和权重零和多矩阵游戏。论文还比较了 Q 学习动态和实现均衡所能达到的社会福利，提供了一种充分条件，即使动态不收敛，Q 学习动态仍能超过均衡。

Jan, 2023

随机博弈的高效 Q 学习

本文提出了新的高效 Q 学习动态应用于随机博弈，使智能体能够遵循阶段游戏中的对数线性学习动态，通过逐步迭代估计 Q 函数，实现高效平衡，并通过逐渐减小步长的方式使其收敛，同时还研究了 softmax 响应在此过程中产生的近似误差。

Feb, 2023

针对 Q 学习者的战略化策略：控制理论方法

本文研究了 Q-learning 算法（一种经典且广泛应用于强化学习的方法）在游戏中受到复杂对手战略操纵的易感性，并量化了战略上熟练的代理人在了解对手的 Q-learning 算法的情况下可以如何利用一个天真的 Q-learner。为达到这个目的，我们将战略角色的问题定义为一个马尔可夫决策过程（具有涵盖所有可能的 Q 值的连续状态空间），将 Q-learning 算法作为基础动态系统。我们还提出了一种基于量化的近似方案来处理连续状态空间，并从理论上和数值上分析了其性能。

Mar, 2024

通过策略搜索学习合作

本文提出了一种基于梯度的分布式策略搜索方法，用于合作博弈中的部分可观测环境，比较了本地最优和纳什均衡的概念，实验结果表明该方法的有效性。

Aug, 2014

确定性环境下的递归反向 Q 学习

该研究提出了递归反向 Q-learning（RBQL）代理，通过引入基于模型的方法，探索和构建环境模型，以更好地解决确定性问题。在达到终止状态后，该代理通过这个模型递归地向后传播其价值，从而实现对每个状态的最优值评估，避免了冗长的学习过程。在迷宫中寻找最短路径的示例中，该代理明显优于普通的 Q-learning 代理。

Apr, 2024

使用软 Q 学习平衡双人随机博弈

本文将软 Q - 学习技术应用于随机博弈中的多智能体系统，实现可调的智能体策略，通过理论和实验贡献，证明了软 Q - 学习可以在各种不同类型的博弈中实现优异表现。

Feb, 2018

二步 Q-Learning

该研究提出了一种新的无偏置、无重要性采样的两步离策略 Q 学习算法，并通过适当的假设证明，该算法的迭代是有界的，并且几乎肯定收敛于最优 Q 值。研究还探讨了两步 Q 学习的平滑版本的收敛性分析，即通过用对数 - 和 - 指数函数代替最大函数。该算法具有鲁棒性和易于实现性，并在基准问题上进行了实验验证，如轮盘问题、最大化偏置问题和随机生成的马尔可夫决策过程，并将其与现有文献中的方法进行了比较。数值实验证明了两步 Q 学习及其平滑变体的卓越性能。

Jul, 2024

预测人类在未重复、同时行动的博弈中的行为

研究了五种广泛研究的模型，以描述实际情况下人类在无重复博弈中的行为，并发现 QLk 模型在参数校准和预测性能上表现最佳，最后提出了一种具有更少参数、更简洁参数值和更好预测性能的新模型族。

Jun, 2013