解释性概念瓶颈以对齐强化学习智能体

Jan, 2024

解释性概念瓶颈以对齐强化学习智能体

Interpretable Concept Bottlenecks to Align Reinforcement Learning Agents

Quentin Delfosse, Sebastian Sztwiertnia, Wolfgang Stammer, Mark Rothermel, Kristian Kersting

TL;DR深度强化学习中，奖励稀疏性、难以归因的信用分配以及错位等问题使得深度强化学习代理无法学习到最优策略。为了解决这个问题，我们引入了连续概念瓶颈代理（SCoBots），通过整合连续的概念瓶颈层使整个决策过程变得透明，使得领域专家能够理解和纠正模型的错误行为，并证明 SCoBots 能够实现更好的与人类一致的强化学习。通过在 Pong 等视频游戏中的应用，SCoBots 帮助我们识别和解决了错位问题。

Abstract

Reward sparsity, difficult credit assignment, and misalignment are only a few of the many issues that make it difficult, if not impossible, for deep reinforcement learning (RL) agents to learn optimal policies. Unfortunately, the black-box nature of deep networks impedes the inclusion

deep reinforcement learning domain experts concept bottlenecks relational concepts misalignment

发现论文，激发创造

可解释化多智能体强化学习的概念学习

本文介绍了一种将领域专家的可解释概念纳入到多智能体强化学习模型中的方法，以提高模型的解释性和稳定性，提高性能和样本效率。

Feb, 2023

DRIBO: 多视角信息瓶颈下的鲁棒深度强化学习

本研究利用多视角设置引入对比的多视图信息瓶颈目标训练深度强化学习代理程序，从而可以学习到能够保留任务相关信息但压缩掉任务不相关信息的强大的表示，进而训练出具有鲁棒性和泛化性的高性能政策。

Feb, 2021

图像分类中瓶颈概念的学习

该论文介绍了一种基于自监督学习和定制的正则化器来实现图像分类任务中深度神经网络解释性的 Bottleneck Concept Learner 方法。

Apr, 2023

随机概念瓶颈模型

通过建模概念间的依赖关系并引入分布参数化，提出了一种基于概念瓶颈模型的新方法，通过影响相关概念来提高干预效果，并展示了其在合成表格和自然图像数据集上显著提高干预效果的经验证据，同时还通过对 CLIP 推导的概念进行检验来展示 SCBMs 的多功能性和可用性，减少了人工概念注释的需求。

Jun, 2024

信息瓶颈下的传递和探索

提出了一种利用信息瓶颈机制学习判决状态的增值方法，通过对观察的状态进行分析，识别有潜力的子目标进行新的探索，并指导代理经过判决状态和状态空间的新区域。

Jan, 2019

适应性棋局环境中的强化学习用于检测人类可理解概念

本研究展示了一种探测自学习算法在训练过程中内部概念的方法，以国际象棋游戏代理为例进行了演示，此方法适用于没有大量计算资源或机器学习模型的研究团体。

Nov, 2022

瓶颈模拟器：一种基于模型的深度强化学习方法

提出了一种基于模型的强化学习方法 —— 瓶颈模拟器，通过学习环境的因式分解的过渡模型和滚动模拟来从很少的例子中学习一种有效的策略，在自然语言处理任务上得到了优异的表现。

Jul, 2018

通过信息瓶颈学习任务驱动的控制策略

本文提出了一种基于强化学习的方法，用于合成具有丰富感知模态（例如视觉或深度）的机器人系统的任务驱动控制策略。该方法学会创建一种任务驱动表示来计算控制动作，以实现控制动作仅依赖任务相关信息。实验结果表明，我们的算法产生的任务驱动策略通常比标准策略梯度方法更加鲁棒性。

Feb, 2020

COBRA: 通过无监督目标发现和基于好奇心的探索实现数据高效的基于模型的强化学习

该研究提出了一种基于 Curious Object-Based seaRch Agent（ COBRA）的深度强化学习算法来提高数据效率和鲁棒性，其使用自主探索和无监督学习建立环境和动作空间的基于对象的模型，在极少的步骤中通过基于模型的搜索学习各种任务并在政策稳健性结构化保持测试中表现出色。

May, 2019

基于策略相关的人类反馈的深度强化学习

本研究在 COACH 算法基础上，对代理策略表达进行了修改，运用深度神经网络实现按照高维视觉输入完成任务的学习，并通过 Minecraft 中实时人类反馈，10-15 分钟即可完成任务。

Feb, 2019