可辨别因子分解的世界模型学习

Jun, 2023

Learning World Models with Identifiable Factorization

Yu-Ren Liu, Biwei Huang, Zhengmao Zhu, Honglong Tian, Mingming Gong...

TL;DR本文提出了 IFactor 框架，它由四类潜在状态变量建模，以捕捉强化学习系统中各种信息的不同方面，并在合成环境和深度强化学习环境中展示了其性能优于基线的实验结果。

Abstract

Extracting a stable and compact representation of the environment is crucial for efficient reinforcement learning in high-dimensional, noisy, and non-stationary environments. Different categories of information coexist in such environments -- how to effectively extract and disentangle

reinforcement learning latent variables world model policy optimization performance

发现论文，激发创造

学习动态属性分解世界模型以提高多目标强化学习效率

在这篇论文中，我们介绍了动态属性因子强化学习（DAFT-RL）框架，通过利用物体中心表示学习从视觉输入中提取物体，并学习对它们进行分类和推断其潜在参数。我们通过学习类别的模板图和对象之间属性级别的相互作用模式图，以及描述对象之间相互作用的动态交互图，可以学习一个策略，从而可以在新的环境中直接应用通过估计交互和潜在参数。我们在三个基准数据集中评估了 DAFT-RL，并展示了我们的框架在跨不同属性和潜在参数的未知对象之间进行泛化以及复合之前学习的任务方面优于现有技术。

Jul, 2023

多智体强化学习中的随机实体分解

本文介绍了一种名为 REFIL 的方法，能够在多个具有不同类型和数量的代理和非代理实体的任务中发现共性，从而提高多任务环境下的学习效率，并在挑战性的多任务 StarCraft 微管理环境中显著优于所有强基线。

Jun, 2020

基于信息受限视觉表示的分解领域学习

本研究的模型探究了人类学习复杂视觉信息的方式，包括压缩表示和因素表示，并提出了一种基于改进版本的 β 变分自编码器的人类因素表示学习模型，在学习速度和重构准确性之间进行了信息复杂度的平衡。

Mar, 2023

通过与世界互动解开独立可控变量的因素

通过探究代理与环境的交互作用，并提出一种特定的目标函数，本文证实无需外在激励信号的情况下，能够发现独立可控因素并实现解耦。

Feb, 2018

利用动态因式分解将人类提供的信息整合到信念状态表示中

该篇论文介绍了一个关于机器人在部分观察环境下进行可靠的推理与规划的有效方法，通过提供现实世界中物体属性的概率信息，并采取正确的策略，实现基于内部状态的自我学习，并验证了该方法在两个开放领域的规划问题中的有效性。

Feb, 2018

独立可控因素

通过允许学习者与其环境交互，我们提出了一种特定的目标函数来发现相应于环境中互相独立可控方面的因素，并在没有任何外在奖励信号的情况下验证其可以实际分离出这些因素。

Aug, 2017

独立可控特征

本文旨在研究如何在交互环境中通过找出学习者可控制的因素来寻找控制观察数据变异因素的因素，提出了一种新颖的方法并在实验中进行了测试。

Mar, 2017

从信息理论的角度构建生成模型框架，学习有结构的潜在因子和相关数据

本文提出了一种新的框架来学习具有所需结构属性的多元数据的可控和通用表示，该模型利用图模型中的掩码变量表示归纳偏置，并扩展多元信息瓶颈理论来强制执行结构依赖性，从而提供原则性方法来学习一组语义上有意义的潜在因素，其反映了各种类型的期望结构，如捕获相关性或编码不变性。同时还提供了自动估计数据中依赖关系的灵活性，该框架统一了许多现有的生成模型，并可应用于各种任务，包括多模态数据建模、算法公平性和不变风险最小化。

Jul, 2020

流分解表示学习

流式因式分解表示学习是一个新颖的结构化表示学习视角，该模型通过动态最优输运的梯度场生成一组不同输入变换的潜在概率路径，并在标准表示学习基准上获得更高的似然度，同时接近于近似等变模型，具有鲁棒性和广泛适用性。

Sep, 2023

学习因子策略和动作值函数：因子化动作空间表示在深度强化学习中的应用

该论文提出了一种新的学习范式，即分解学习控制策略使其在实现多个动作时只需要执行一个动作，从而取得了显著的性能提升，特别是在 Atari 2600 游戏中媲美或超过了两种 DRL 算法。

May, 2017