基于上下文感知探索的快速端对端适应

Feb, 2024

基于上下文感知探索的快速端对端适应

Fast Peer Adaptation with Context-aware Exploration

Long Ma, Yuanfei Wang, Fangwei Zhong, Song-Chun Zhu, Yizhou Wang

TL;DR我们提出了基于历史上下文的同伴识别奖励，这个奖励根据学习智能体对同伴的行为模式识别得有多好来奖励智能体。我们的方法在多样的测试平台上进行评估，包括竞争性（Kuhn Poker）、合作性（PO-Overcooked）或混合（Predator-Prey-W）游戏，展示了比现有方法更积极的探索行为，实现了更快的适应和更好的结果。

Abstract

Fast adapting to unknown peers (partners or opponents) with different strategies is a key challenge in multi-agent games. To do so, it is crucial for the agent to efficiently probe and identify the peer's strategy, as this is the prerequisite for carrying out the best response in

multi-agent games adaptation peer identification reward context-aware policy exploration behavior

发现论文，激发创造

自适应即时策略对接

本文提出了使用贝叶斯推断和 Gibbs 采样等技术来解决多智能体强化学习协作中的协调难题，以实现智能体对人类和其他智能体的有效交互，并在 Hanabi 这个复杂的纸牌游戏中表现出了强大的能力。

Mar, 2022

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

一种基于内在动机的学习方法，用于学习高度探索和快速运动策略

本文提出一种新的代理与环境相互作用下的探索策略，旨在最小化步骤数、最大化稳态分布熵的下界，并引入三个下界分别对应三个最优化问题，再基于此提出 IDE$^{3}$AL 算法进行模型驱动的强化学习。

Jul, 2019

基于合作上下文臂银行算法的分布式在线学习

本文提出了一种新的分布式在线学习框架，将学习者建模为合作的情境赌博机，分析了分布式在线学习算法和完全知识基准的效率，研究表明后者在时间上失误是亚线性的，该理论框架可用于许多实际应用中，包括大数据挖掘、监视传感器网络事件检测和分布式在线推荐系统。

Aug, 2013

通过知情策略正则化在动态环境下学习自适应探索策略

本文研究了学习探索 - 利用策略来适应动态环境的问题，并提出了一种使用信息策略对 RNN-based 策略进行训练的新算法来规范化训练，从而显著减少了训练样本的复杂性。这种方法学习了一些探索策略，使其可以高效地平衡对于未知和变化的任务中获取信息以及随时间最大化回报的问题，并在多种环境中进行了测试。

May, 2020

同行学习：通过动作建议从零开始学习复杂策略的群体

同行学习是一种新颖的高级强化学习框架，用于群体学习。通过研究代理人的学习行为，我们发现同行学习能够在多个具有挑战性的离散和连续动作空间中胜过单个代理人学习和基准方法，并能够从行为建议中发展出复杂策略。

Dec, 2023

(几乎) 免费的去中心化学习代理的激励探索

本文探讨了在多臂赌博机中利用多个具有长期战略的代理人进行奖励探索，并提出了一种简单但有效的激励策略，结果表明，当涉及足够多的学习代理人时，主体的探索过程几乎是免费的。

Oct, 2021

多智能体竞赛中的探索 - 利用：有界理性下的收敛

通过研究充分考虑游戏奖励和探索成本平衡的原型学习模型 Q-learning，我们证明在使用积极探索率的具有异质性学习代理的权重零和多元矩阵游戏中，Q-learning 总是收敛于唯一的量刑 - 反应均衡（QRE），这是有界理性下游戏的标准解决方案概念，并展示了 Q-learning 在竞争环境中的快速收敛性，而无需任何参数微调，在竞争多代理环境中的均衡选择问题提供了算法所需的保证。

Jun, 2021

结构化探索策略的元强化学习

本研究探讨如何从先前的经验中学习探索策略，并介绍了一种新的基于梯度的快速自适应算法（MAESN）来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效，并在模拟任务中进行了评估。

Feb, 2018