深度强化学习智能体行为的实证研究

KDDApr, 2020

深度强化学习智能体行为的实证研究

How Do You Act? An Empirical Study to Understand Behavior of Deep Reinforcement Learning Agents

Richard Meyes, Moritz Schneider, Tobias Meisen

TL;DR通过对深度强化学习的智能体的策略网络进行局部网络消融，我们发现健康智能体的行为是通过网络层激活与执行行为之间具有特定的相关模式所表征，并且健康智能体的学习表征在其激活空间中具有反映其不同行为阶段的特定模式，在网络消融时，这些模式被扭曲，导致智能体无法完成其训练控制任务。因此，我们提出了对人工神经网络的一种新的实证研究视角，以确保人工神经网络在透明度和可解释性方面具有科学可证伪性的标准。

Abstract

The demand for more transparency of decision-making processes of deep reinforcement learning agents is greater than ever, due to their increased use in safety critical and ethically challenging domains such as autonomous driving. In this empirical study, we address this lack of

transparency deep reinforcement learning neural networks policy network activation space

发现论文，激发创造

多智能体强化学习中动作 - 价值网络的表征能力

本文探讨了深度强化学习技术在合作多智能体系统中的应用，实验结果表明不同网络架构的表现存在差异，提出了增强其表示能力来解决失败问题的建议。

Feb, 2019

从数据拟合到探索：通过强化学习解读运动控制的神经动力学

通过研究虚拟机器人在进行腿部运动时的结构化神经活动，我们发现机器人训练后的神经轨迹比输入驱动的激励层的神经轨迹更为复杂，这一核心原则对于计算神经科学具有重要意义。

May, 2023

深度强化学习神经网络中的透明度和解释

本文研究了深度强化学习网络（DRLN）的透明度问题，提出了一种新的通用方法，将显式对象识别处理纳入 DRLN 模型中，形成 “对象显著性地图”，提供 DRLNs 内部状态的可视化，从而促进了系统说明的形成和理解。

Sep, 2018

强化学习中的经验设计

本文旨在提出在强化学习中进行良好实验的方法，并强调常见错误和潜在统计结果，覆盖了如何对性能进行妥善表征、假设检验、比较多个代理、基准和说明性例子的构建、如何处理超参数和实验偏差等等，旨在通过充分利用计算资源来进行良好的实证研究。

Apr, 2023

利己还是利他？使用强化学习的不同行为特征代理在合同谈判中的行为

使用多智能体强化学习训练的深度学习代理协商合同协议，建立自私和互惠行为的多样性模型，提供经验证据证明，代理人行为一致，最终训练一个元代理，通过学习混合的行为模型，以确保代理人的实用性，并通过实验验证，发现代理人在谈判中出类拔萃并能够合理模拟人类行为。

Sep, 2018

深度强化学习及其神经科学意义

这篇综述性研究论文介绍了深度强化学习在神经科学中的应用，讨论了其对大脑和行为研究的影响，并提出了未来研究的机会。

Jul, 2020

部分观测下的代理建模用于深度强化学习

为了消除现有的管理机构建模中对受控代理的局部信息和选择动作的假设，该研究使用编码器 - 解码器结构从受控代理的局部信息中提取表示，并在训练期间使用管理代理的观察和动作来学习提取关于管理代理的表示，从而增强了管理代理的决策策略。提供了对合作、竞争和混合多代理环境的全面评估和消融研究，并表明我们的方法比不使用学习表示的基线方法产生更高的回报。

Jun, 2020

适应性棋局环境中的强化学习用于检测人类可理解概念

本研究展示了一种探测自学习算法在训练过程中内部概念的方法，以国际象棋游戏代理为例进行了演示，此方法适用于没有大量计算资源或机器学习模型的研究团体。

Nov, 2022

神经网络的内部结构：基于功能神经元群和网络消融的学习表示特征表征

本文研究神经网络的透明度缺乏问题，通过对激活模式和网络消融的表征，揭示了在完成学习任务时单个神经元和神经元群体的作用，强调了为未来的转移学习和现代神经科学发展提供必需指标的重要性。

Apr, 2020

通过策略规范化对智能体进行特征化的强化学习

该论文提出了一种基于正则化的强化学习方法，使代理人的行为具有指定的特征，从而增强了透明度和可解释性，并可应用于金融领域的个性化投资组合优化。

Jan, 2022