行动与感知的差异最小化

Sep, 2020

Action and Perception as Divergence Minimization

Danijar Hafner, Pedro A. Ortega, Jimmy Ba, Thomas Parr, Karl Friston...

TL;DR为感知-行动智能体设计多样性的目标函数，从狭窄到广泛探索领域特定奖励和通过对输入序列的潜变量模型最大化与环境交互的信息，呈现一系列无监督目标，其中代理体使用感知与行动调整其世界观，以追求大的环境空间。

Abstract

We introduce a unified objective for action and perception of intelligent agents. Extending representation learning and control, we minimize the joint divergence between the world and a target distribution. Intuitively, such agents use perception to align their beliefs with the world,

发现论文，激发创造

基於内在動機的自我意識代理學習玩耍

使用神经网络的好奇心驱动内在动机以及采用自我监督的方法，在简单而生态自然的模拟环境中，实现自主环境探索，获取对环境的理解，从而创造一系列复杂的行为，并提高了对象动态预测、检测、定位和识别任务的性能。

Feb, 2018

深度多智能体强化学习的贝叶斯行动解码器

使用Bayesian action decoder（BAD）的公开信念马尔可夫决策过程（public belief MDP）算法，成功在Hanabi卡牌游戏中超越了所有以前发表的学习方法和手动编写方法，创立了新的最先进水平。

Nov, 2018

模仿学习方法的差异最小化视角

本文提出了一种基于分歧最小化的Imitation Learning方法，即$f$-MAX，将IRL方法如GAIL和AIRL联系起来并揭示了它们的算法特性，通过期望最大化演算法来教授机器人在推手环境中进行多样化的行为。

Nov, 2019

表征至关重要: 提高机器人感知和探索能力

本文在三个机器人任务中系统评估了多种常见的学习和手工工程化表示方法，并从三个方面对每种表现方法进行评估，即维度，可观测性和分离度，发现在输入代理或作为辅助任务的情况下，可以显著提高性能，并挑战了什么是控制机器人'好'表示的见解。

Nov, 2020

开放式学习导致通用能力的代理

本文介绍了一种基于多智能体、开放式学习的方法，其能够使得智能体在一种包含大量挑战、跨越多个任务、更广泛的行为通用化领域中表现出非凡的学习能力。通过在环境中建立一个任务的宇宙，我们的训练代理能够跨越更广泛的任务领域，这个领域自然多智能体，涉及合作竞争等多种类型的游戏，而这一领域的挑战对于智能体来说多种多样，因此，我们提出了一种迭代方法来改进代理的效果，而不是试图最大化一个单一目标。最终，我们证明了这种代理的通用能力，可以通过简单的微调实现更大规模的行为传递。

Jul, 2021

相对行为属性：填补符号目标规范和从人类偏好中学习奖励之间的差距

利用相对行为属性的概念，可以从行为片段中优化智能体的行为表现，并以远少于基线方法的反馈次数，实现非专家用户对智能体行为的偏好指定。

Oct, 2022

倒行逆施前行：基于行动影响的嵌入在行动语义之上

通过使用潜在嵌入来即时建模行为的影响，在行为自适应策略（AAP）中设计了一种新的基于Transformer的策略头，该策略被用于两个具有挑战性的视觉导航任务中，即使在推理时缺少行为和先前未见过的扰动行为空间时，也表现出很高的性能和鲁棒性。

Apr, 2023

可辨别因子分解的世界模型学习

本文提出了IFactor框架，它由四类潜在状态变量建模，以捕捉强化学习系统中各种信息的不同方面，并在合成环境和深度强化学习环境中展示了其性能优于基线的实验结果。

Jun, 2023

建模具有潜在推理预算的有界理性代理

我们研究了在未知计算限制下追求未知目标的代理人群建模问题。通过引入潜在推断预算模型（L-IBM），我们能够明确地建模代理人的计算限制，并通过一种迭代推断算法的运行时间来控制。我们通过三个建模任务展示了L-IBM在不确定决策时的能力优于Boltzmann模型，并且推断的推断预算本身具有意义，计算高效，并且与玩家技能、合作人技能和任务难度相关。

Dec, 2023

通过速率失真理论探索以行为为中心的表征

本文解决了有限资源的智能体在高维环境中高效编码信息的挑战，提出了利用速率失真理论作为框架来探索目标导向的高效编码。研究发现，以行为为中心的表征能够高效地压缩数据，并捕捉成功行为所需的任务相关不变性，而不依赖于对数据的全面重构，这表明最优行为不常依赖于完全重构数据的需求。

Sep, 2024