带理由推断的优势演员 - 评论家算法：从探索性视角解释代理行为

Sep, 2023

带理由推断的优势演员 - 评论家算法：从探索性视角解释代理行为

Advantage Actor-Critic with Reasoner: Explaining the Agent's Behavior from an Exploratory Perspective

Muzhe Guo, Feixu Yu, Tian Lan, Fang Jin

TL;DR本文介绍了一种新的带有解释性的 Actor-Critic 强化学习模型 A2CR，通过预定义和分类行为的目的，A2CR 自动生成了更全面、可解释的决策模式，从而提供了一系列功能，如基于目的的关键性、早期故障检测和模型监督，以促进负责任和可信任的强化学习。通过在动作丰富的 Super Mario Bros 环境中的评估，发现随着强化学习算法的探索程度加深，Reasoner 预测的标签比例在 “Breakout” 中降低，而在 “Hovering” 中增加。此外，基于目的的关键性更具针对性和可理解性。

Abstract

reinforcement learning (RL) is a powerful tool for solving complex decision-making problems, but its lack of transparency and interpretability has been a major challenge in domains where decisions have significant real-world consequences. In this paper, we propose a novel Advantage Act

reinforcement learning advantage actor-critic with reasoner interpretable paradigm decision-making process responsible rl

发现论文，激发创造

潜在互动 A2C 用于开放多智能体系统中改进强化学习

本文介绍了一种基于编码器 - 解码器结构的潜在 IA2C 方法，其利用去中心化的训练和执行，学习隐藏状态和其他代理的动作的潜在表示，实验结果表明，潜在 IA2C 显著提高了样本效率，并在具有开放代理人口的时间上进行了评估。

May, 2023

深度强化学习的辅助任务 —— 代理建模

本文探讨了如何将演员 - 评论家（Actor-Critic）方法在深度强化学习中，尤其是异步优势演员评论家（A3C）与代理建模相结合。我们提出了两种体系结构来执行代理建模，旨在学习其他代理的策略作为辅助任务。在协作和竞争领域的实验结果表明，所提出的体系结构稳定了学习，并在学习期望报酬最佳响应时优于标准 A3C 体系结构。

Jul, 2019

多智能体强化学习的概率递归推理

本论文提出了一种基于递归推理与变分 Bayes 方法的多智体强化学习框架，该框架可以用于建模智体对手的行为，提高智体的自我决策能力以及使其在博弈中达成 Nash 均衡。实验证明，关于智体对手信念的推理，是智体强化学习中一个重要的方向。

Jan, 2019

多智能体强化学习的演员 - 注意力 - 评论家模型

提出了一个基于 Actor-Critic 算法的多智能体强化学习算法，解决了多智能体场景下的信息筛选问题，可应用于大多数多智能体学习问题。

Oct, 2018

一种用监督数据提高采样效率的演员 - 评论家强化学习方法在对话管理中的应用

介绍了两种神经网络算法 ——trust region actor-critic with experience replay (TRACER) 和 episodic natural actor-critic with experience replay (eNACER)，以加速深度强化学习，在线学习过程中的效果，并利用演示数据来预先训练深度强化学习模型，以缓解冷启动问题。

Jul, 2017

从场景图对中学习动作 - 效应动力学

本文提出了一种新方法，利用场景图像来推理自然语言中描述的行为的影响，并在现有的 CLEVR_HYP (Sampat et.al，2021) 数据集上进行了实验，显示出与现有模型相比，该方法在性能，数据效率和泛化能力上都具有有效性。

Dec, 2022

RACCER：面向强化学习的可达到和确定的反事实解释

本文提出 RACCER，这是第一个针对 RL 行为生成对抗性解释的 RL 特定方法，我们使用 RL 特定的对抗性属性，并使用启发式树搜索算法来查找最合适的对抗性解释，并进行了用户研究以证明对抗性解释可以帮助用户更好地理解 RL 代理的行为。

Mar, 2023

具备函数逼近和理论保证的决策感知演员 - 评论家算法

我们设计了一个决策感知的联合目标来训练演员和评论家，以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题，并提出了一个通用的 Actor-critic 算法来处理任何函数逼近，在一些简单的赌博机示例中，我们证明了提出的评论家目标的好处。最后，我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。

May, 2023

强化学习代理策略理解与可视化框架

本研究提出了一个框架，用于学习顺序决策任务的可理解模型，通过时间逻辑公式表征代理策略，并使用一个嵌入方法对代理足迹进行聚类，得出在不同的聚类中解释代理策略的逻辑公式，通过编写一个特征提取器和一个可视化工具，对在 StarCraft II 中的战斗场景进行了评估，实验结果表明，本框架可以将代理足迹分为不同的行为组，并为每个行为组提供一致、有意义且易于理解的策略描述。

Aug, 2022

对抗引导的演员 - 评论家算法

本研究提出使用敌对模型来促进探索及提高效率，从而解决各类探索困难且奖励很少的问题，发现使用 Adversarially Guided Actor-Critic 比当前的现有方法都更加有效。

Feb, 2021