稳定的多智能体交互影响力研究

Oct, 2021

Influencing Towards Stable Multi-Agent Interactions

Woodrow Z. Wang, Andy Shih, Annie Xie, Dorsa Sadigh

TL;DR该研究探讨如何通过学习其他机器人的策略，以及动态模型的帮助，定义一个无监督的稳定奖励来影响其他机器人的策略以实现稳定，并展示了其在自动驾驶、紧急通信和机器人操作等方面的有效性。

Abstract

Learning in multi-agent environments is difficult due to the non-stationarity introduced by an opponent's or partner's changing behaviors. Instead of reactively adapting to the other agent's (opponent or partner) behavior, we propose an algorithm to proactively influence the other agen

multi-agent learning non-stationarity stabilization latent representation dynamics model

发现论文，激发创造

多智能体强化学习中影响长期行为

本文提出了一个基于 farsighted objective 的新优化目标以及一种新的多智能体强化学习方法，实现了优于现有基线结果的长期性能。

Mar, 2022

学习潜在表征以影响多智体交互

该论文提出了一种基于强化学习的框架，用于学习代理人策略的潜在表示，通过学习潜在的动态关系，以影响其他代理人，推动其向适合于协同适应的策略方向发展，该方法在多个模拟领域和现实世界的空气曲棍球比赛中表现优异。

Nov, 2020

RILI: 鲁棒地影响潜在意图

该研究探讨机器人与人类的互动，提出了一种基于机器学习的方法，能够训练机器人逐渐适应人体动态的变化，并使机器人与人类在协作过程中达到更好的效果。

Mar, 2022

多智能体环境中学习的调研：应对非稳态问题

该研究综述了游戏理论、强化学习和多臂老虎机的工具等方面对对手诱导的非稳态进行处理的新方法，基于对算法建模和面对非稳态的方法分为五类，并将一系列前沿算法分类，以便更好地处理不同类别的环境中的问题，并指出了未来的研究方向。

Jul, 2017

模仿以获胜：多智能竞争游戏中的模仿学习策略

我们提出了一种新的多智能体模仿学习模型，用于预测对手的下一步动作，并将其与策略训练结合为一个训练过程的多智能体强化学习算法，在三个具有挑战性的游戏环境中进行了广泛实验，结果表明我们的方法在性能上优于现有的多智能体强化学习算法。

Aug, 2023

带稳定性保证的演员 - 评论家强化学习控制

使用经典控制理论中的 Lyapunov 方法，为控制系统提供稳定性保证的 actor-critic RL 框架，确保在一定程度的不确定性干扰下，学习到的策略使得系统能够恢复到平衡或航点。

Apr, 2020

在线稳定强化学习框架

本篇论文介绍了一种将在线增强学习与经典控制的元素（基于 Lyapunov 稳定性理论）进行结合的方法，可在不进行长期预训练的情况下为移动机器人提供稳定的控制能力，并通过实验研究证明了该方法的有效性。

Jul, 2022

多智能体深度强化学习中的非稳态问题处理

本文综述了多智能体深度强化学习中的非稳态问题，包括集中式训练、对手策略表示学习、元学习、通信和去中心化学习等方法，并列举了未来研究的可能方向。

Jun, 2019

随机博弈中的独立学习

本综述介绍了一个新的独立学习动力学网络，其保证了在零和随机博弈中的收敛性，同时也回顾了其他算法，以期推动研究有关动态环境下博弈的独立和自然学习动力学。

Nov, 2021

学习潜在表示以共同适应人类

论文介绍了一种算法形式化的机器人与动态人类相互协调的方法，使用机器人的低级状态、行为和奖励，结合高级别的人类政策和政策动态来实现，该方法在博弈和建造任务中进行了实际人类协作实验，表明比基线方法更好地学习了与不完美、嘈杂、时变代理协调。

Dec, 2022