控制问题的状态表示学习综述

Feb, 2018

State Representation Learning for Control: An Overview

Timothée Lesort, Natalia Díaz-Rodríguez, Jean-François Goudou, David Filliat

TL;DR综述了最近几年在机器人控制任务中，涉及环境交互的各种状态表示学习方法及其应用，并重点介绍了这些算法如何利用通用学习目标。最后，讨论了评估方法以评估所学习的表示，并总结了现有和未来的研究方向。

Abstract

representation learning algorithms are designed to learn abstract features that characterize data. State representation learning (SRL) focuses on a particular kind of →

representation learning state representation learning low-dimensional representation robotics reinforcement learning

发现论文，激发创造

S-RL Toolbox: 对状态表示学习提供环境、数据集和评估指标

本文提出一套环境、数据生成器、机器人控制任务、评估指标和工具，以促进强化学习环境下迭代状态表示学习和评估。

Sep, 2018

Deep Reinforcement Learning 中的状态行为表示学习

本文介绍了一种名为 SALE 的新方法，用于学习嵌入，以从低级状态中进行有效的表示学习，并将其与一种自适应检查点方法相结合，形成 TD7 算法，用于连续控制问题，并在 OpenAI gym 基准任务上表现出了显着提高。

Jun, 2023

目标驱动机器人中从策略学习中分离特征提取：评估状态表示学习的优劣

该论文提出了一种基于状态表示学习的方法用于实现机器人视觉控制中的高效强化学习，该方法包含多个状态表示学习方法，能够提高采样效率、提高性能、抗超参数变化，并编码所有相关特征。

Jan, 2019

SIRL：基于相似性的隐式表示学习

从人们定义的相似度中学习表示使机器人能够识别和隔离人们实际关心和使用的因果特征，从而更好地学习他们的喜好和目标。在模拟和用户研究中，我们证明通过这种相似度查询学习可以比自我监督和任务输入等传统的表示学习方法得到更具有一般性的表示。

Jan, 2023

表示抽象作为强化学习智能体的激励机制：一个机器人抓取的案例研究

选择适当的环境表示对于强化学习代理的决策过程并不总是直观的，本研究考察了不同状态表示对于激励代理解决机器人任务的影响，结果显示使用数字状态的强化学习代理与非学习基线表现相当，而使用经过预训练环境嵌入向量的图像表示的代理表现更好，推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。

Sep, 2023

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

强化学习中自然语言状态表示概述

本次调查综述了文献中用于构建自然语言状态表示的策略，呼吁使用更容易理解且有基础的语言表示方法、仔细评估策略及对设计决策进行详细解释。

Jul, 2020

学习瞬时可控的状态表示

计算行为的目的性描述和规范性方面包括现行（或未来）世界状况的确定以及对于实现代理人目标的这些状态的可取性的评估；本文提出了一种关于有限代理人中状态表示学习的新理论框架，通过目标导向或目标性状态的概念将描述性方面与规范性方面相结合；我们定义了目标状态表示的一种新的可控性属性来表征其粒度与实现所有目标状态所需的策略复杂性容量之间的权衡；我们提出了一种学习可控状态表示的算法，并通过简单的导航任务演示其有效性；我们的框架强调了有意识地忽视某些信息的重要性，从而学习既具有目标灵活性又简单的状态表示；总体而言，我们的工作为通过目标的视角提供了自然学习和人工学习的统一理论观点迈出了具体的一步。

Jun, 2024

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018