多任务策略训练中的简单自发行为表示

ICLROct, 2022

多任务策略训练中的简单自发行为表示

Simple Emergent Action Representations from Multi-Task Policy Training

Pu Hua, Yubei Chen, Huazhe Xu

TL;DR该论文研究了深度强化学习中低级感知和运动信号的表示方法，提出通过多任务策略网络输入状态和任务嵌入的方法得到有意义的运动表示空间，并在此基础上进行高级别指令的执行规划，实验结果表明该方法优于现有强基线方法，具有较强的任务适应能力。

Abstract

The low-level sensory and motor signals in deep reinforcement learning, which exist in high-dimensional spaces such as image observations or motor torques, are inherently challenging to understand or utilize directly for downstream tasks. While sensory representations have been extensi

deep reinforcement learning motor action representation multi-task policy network action planning motor signal space

发现论文，激发创造

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

面向人类的机器人操作的表示学习

人类具有内在的通用视觉表征，使其能够高效地探索和与环境进行物体操控。本研究提出使用多任务微调的方式在经过预训练的视觉编码器上学习感知技能，通过任务融合解码器指导表示学习，使得对于所有感知技能来说，学习编码的结构能够更好地表示重要信息，最终为下游的机器人操控任务提供帮助。大量实验验证了任务融合解码器在多个机器人任务和仿真及现实环境中对于三种最先进的视觉编码器（R3M、MVP 和 EgoVLP）的表示进行了改进，提升了下游操控策略的学习性能。

Oct, 2023

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

由实际到逻辑再到实践：从原始数据中创造符号词汇、行动和模型的规划方法

本文介绍了一种自主学习的方法，通过无标注的高维真实值机器人轨迹，自动学习抽象状态和动作的可推广的基于逻辑的关系表示，形成了自动发明的类似 PDDL 的领域模型。通过确定性设置的实证结果表明，仅凭少量机器人轨迹就可以学习到强大的抽象表示，所学的关系表示包括但超越了高级动作的经典直观概念，并且学习的模型使得规划算法能够扩展到以前超出手工构思抽象的任务范围。

Feb, 2024

使用深度强化学习学习运动技能：行动空间选择的影响

本文研究了用于高维状态描述的深度强化学习，并比较了不同的动作参数表示对学习难度、策略鲁棒性、运动质量和策略查询率的影响。从多个平面关节图形和多个步态的步态循环模仿任务的结果来看，本文表明较高级别的动作参数化所提供的本地反馈可以显著影响策略的学习、鲁棒性和质量。

Nov, 2016

表征至关重要：提高机器人感知和探索能力

本文在三个机器人任务中系统评估了多种常见的学习和手工工程化表示方法，并从三个方面对每种表现方法进行评估，即维度，可观测性和分离度，发现在输入代理或作为辅助任务的情况下，可以显著提高性能，并挑战了什么是控制机器人 ' 好' 表示的见解。

Nov, 2020

表示抽象作为强化学习智能体的激励机制：一个机器人抓取的案例研究

选择适当的环境表示对于强化学习代理的决策过程并不总是直观的，本研究考察了不同状态表示对于激励代理解决机器人任务的影响，结果显示使用数字状态的强化学习代理与非学习基线表现相当，而使用经过预训练环境嵌入向量的图像表示的代理表现更好，推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。

Sep, 2023

从视觉观察中学习可操作的表征

本文研究了使用自我监督学习来学习连续控制任务的对抗学习方法。通过将多个帧联合嵌入到嵌入空间中，我们扩展了时间对比网络（TCN），从而能够更准确地编码位置和速度属性。我们证明了这种方法在强化学习任务中有效，可以通过仅使用学习到的嵌入作为输入，使用像 Proximal Policy Optimization（PPO）这样的算法来学习连续控制策略。

Aug, 2018

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018

自监督学习图像嵌入以进行连续控制

本研究探讨了完全自我监督的学习方法，基于状态达成最短时间来实现通用图像嵌入和控制基元，同时介绍了一种新的状态操作价值函数结构，建立了模型自由和模型基础方法之间的联系，并提高了学习算法的性能。三项模拟机器人任务的实验结果表明了这些发现。

Jan, 2019