DCIR: 多智能体强化学习的动态一致性内部奖励

Dec, 2023

DCIR: 多智能体强化学习的动态一致性内部奖励

DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement Learning

Kunyang Lin, Yufeng Wang, Peihao Chen, Runhao Zeng, Siyuan Zhou...

TL;DR为了解决多智能体系统中智能体学习最优行为策略的问题，本文提出了一种新方法来利用内部奖励使智能体能够学习是否应该与其他智能体保持一致的行为，并通过动态一致性内部奖励 (DCIR) 和动态比例网络 (DSN) 来评估其效果。

Abstract

Learning optimal behavior policy for each agent in multi-agent systems is an essential yet difficult problem. Despite fruitful progress in multi-agent reinforcement learning, the challenge of addressing the dynam

multi-agent systems reinforcement learning behavior consistency intrinsic rewards dynamic scale network

发现论文，激发创造

DEIR: 基于判别模型的情节内在奖励的高效稳健探索

本论文提出一种基于条件互信息的探索奖励方法 (DEIR)，实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。

Apr, 2023

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成 MDP 和转移学习任务上都得到了改进。

Apr, 2016

多智能体强化学习中基于内在奖励的协调探索

该论文介绍了一种为多智能体设计内在奖励的框架，以促进协调探索，然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。

May, 2019

通过学习动机一致的内在回报自动设计奖励

本文提出了一种基于动机的奖励设计方法，自动生成目标一致的内在奖励，以最大程度地增大期望的累积外在奖励，该方法在处理延迟奖励、探索和信用分配问题方面优于现有方法。

Jul, 2022

增强端到端多任务对话系统：内在动机强化学习算法的研究，以改善训练和适应性

通过采用内在激励强化学习算法来测量状态访问的频率和鼓励探索，本研究旨在改善对话系统的政策，继而有效提高性能指标并拓展领域范围。

Jan, 2024

多智能体强化学习中的行为多样性控制

多智能体强化学习中行为多样性的研究是一个新兴且有潜力的领域。本研究提出了一种名为 DiCo 的多样性控制方法，通过在策略架构中应用约束，能够在不改变学习目标的情况下精确控制多样性，从而增加多智能体强化学习算法的性能和样本利用率。

May, 2024

社交影响：多智能体深度强化学习的内在动机

提出了一种通过奖励代理对其他代理的行为产生因果影响来实现多智能体强化学习中的协调和沟通的统一机制，通过使用反事实推理来评估因果影响，结果显示影响导致在具有挑战性的社交困境环境中协调性和沟通的增强，同时增加了深度强化学习代理的学习曲线，并且在学习沟通协议方面也更有意义。

Oct, 2018

利用奖励一致性进行强化学习中可解释特征发现

通过提出奖励一致性和特征归因作为理解强化学习（RL）代理的中心目标，并提出了一种新的框架（RL 在 RL 中，简称 RL-in-RL）来解决梯度从动作到奖励的脱节问题，该文对 Atari 2600 游戏以及 Duckietown 进行了验证和评估，结果表明我们的方法能够保持奖励一致性并实现高质量的特征归因，同时一系列的分析实验证实了我们对行动匹配原则限制的假设。

Sep, 2023

奖励一致性动力模型在离线强化学习中具有强大的泛化能力

学习精确的动力学模型对于脱机强化学习非常重要，我们提出了奖励一致性动力学模型的概念，通过生成具有最高动力学奖励值的批次转换来改善脱机模型建立强化学习方法的性能。

Oct, 2023

自动设计有趣的多智能体环境

通过提供内在的奖励机制，增加多智能体环境中 RL 学习的效率，我们在多智能体 Hide and Seek 和单智能体迷宫任务中，考察了一系列根据预测问题构建的内在老师奖励，并发现其中价值不一致是最为稳健和高效的奖励方式。

Mar, 2022