解缠（非）可控特征

Oct, 2022

Disentangled (Un)Controllable Features

Jacob E. Kooi, Mark Hoogendoorn, Vincent François-Lavet

TL;DR本文提出一种表示学习算法，该算法可以将隐含特征分解为可控和不可控两个部分，从而提高表示的可解释性并有效学习和规划。通过在三个不同的环境中展示该算法的分解性质，强调了该方法的优势。

Abstract

In the context of mdps with high-dimensional states, reinforcement learning can achieve better results when using a compressed, low-dimensional representation of the original input space. A variety of learning ob

reinforcement learning mdps representation learning latent features disentangling algorithm

发现论文，激发创造

强化学习中的分离表示条件互信息

本研究提出了一种针对强化学习中存在相关特征的高维观察数据的辅助任务方法，通过最小化表示中特征的条件互信息来学习解缠缚表示，以提高对相关性变化的泛化能力。实验结果表明，该方法可以提高强化学习算法的训练性能和泛化能力。

May, 2023

强化学习中解耦特征表示隐藏参数的学习与理解

本文提出了一种无监督方法，通过改进 RNN world model 的训练算法和利用 metric learning 映射 RNN memory 到 feature space 中，将 RL 轨迹从隐藏参数对系统行为的影响中解开，从而可对系统中的隐藏参数进行分析和研究。

Nov, 2022

结构化解耦表征

本研究提出了一种两级分层目标函数来控制变量块和块内个体变量之间的相对统计独立程度，以通过非监督学习从高维数据中学习无监督表示，实验结果显示该目标函数可以解开离散变量，并提高其他变量的解开程度和泛化能力。

Apr, 2018

特征强化学习：第一部分：非结构化 MDPs

本文研究如何自动化减少任务的状态表达，以将通用的智能学习机设定为 MDP 框架，从而扩大许多现有强化学习算法和使用它们的机器人的范围，并开发一种形式化的客观标准作为搜索可行 MDPs 的指导，并在算法中将各个部分整合到一起。

Jun, 2009

通过与世界互动解开独立可控变量的因素

通过探究代理与环境的交互作用，并提出一种特定的目标函数，本文证实无需外在激励信号的情况下，能够发现独立可控因素并实现解耦。

Feb, 2018

强化学习中的表示时间解耦以提高泛化能力

通过引入时间分离（TED）作为强化学习辅助任务，可以更好地利用序列化 RL 观察结果，学习更健壮的表示形式，从而使 RL 算法对未知环境变量的变化更快地适应。

Jul, 2022

独立可控特征

本文旨在研究如何在交互环境中通过找出学习者可控制的因素来寻找控制观察数据变异因素的因素，提出了一种新颖的方法并在实验中进行了测试。

Mar, 2017

解耦表示学习

本文综合性地回顾了基于直觉和群论的定义的 DRL，将 DRL 的方法学分为四组，最后分析了设计不同 DRL 模型的原则和未来研究方向。

Nov, 2022

非分离模型的解耦表示

探讨了一种无监督的去卷积方法，在使用没有去卷积术语的生成模型中提取去卷积表示，以获得与现有技术相当的结果。

Feb, 2021

在现实环境中传递解缠结表示

本文提出了一个新的高分辨率数据集，其中包括 1M 个模拟图像和 1800 个带注释的现实世界图像，以评估分解表示学习到未见过的模拟和实际环境中的泛化能力，研究表明分解表示学习是识别未知分布下任务性能的有效预测因素。

Oct, 2020