从语言中学习不变语义表示，实现可扩展策略普适性

Jan, 2022

从语言中学习不变语义表示，实现可扩展策略普适性

Learning Invariable Semantical Representation from Language for Extensible Policy Generalization

Yihan Li, Jinsheng Ren, Tianrun Xu, Tianren Zhang, Haichuan Gao...

TL;DR该研究提出了一种新的方法 —— 元素随机化，通过一组具有随机元素的环境来从自然语言指令中提取任务相关的语义而不受环境影响，同时设计了一个层次化的策略，将子目标建议为语义不变的表示形式，可在长时间视角任务上表现出卓越的泛化性能并能够完成一次性任务。

Abstract

Recently, incorporating natural language instructions into reinforcement learning (RL) to learn semantically meaningful representations and foster generalization has caught many concerns. However, the semantical information in language instructions is usually entangled with task-specif

reinforcement learning semantically invariant representations element randomization hierarchical policy natural language instructions

发现论文，激发创造

利用语言抽象和预训练表示进行语义探索

本研究提出使用词汇和形象语言所构建的视觉和语言表示形式来加强强化学习的探索能力，实验证明这种方法可以改善在高维连续部分可观测空间中进行探索所遇到的问题，促进算法性能的提高。

Apr, 2022

基于语言条件的语义搜索导向的机器人操作任务策略

我们提出了一种基于语言条件的语义搜索方法，从可用的示范数据集中获取在线搜索策略，在 CALVIN 基准测试中超过了基线性能，并展现了强大的零样本适应能力，对于扩展基于在线搜索策略的任务具有巨大的潜力。

Dec, 2023

面向语言条件任务的概念强化学习

本研究提出了一种概念强化学习 (CRL) 框架，通过多级注意力编码器和两个互信息约束来提高语言条件策略的训练效率和泛化能力，该框架提取了一种类似于人类认知的紧凑且不变的联合表示。

Mar, 2023

语言作为层次深度强化学习的抽象

本文提出了使用语言作为抽象概念的层次强化学习方法，通过学习基本概念和子技能来解决时间延长的任务，构建了开源对象交互环境，证明了采用这种方法，代理可以从原始像素观察中学习解决多样化的任务，语言的组合性质使得学习多种子技能变得关键。

Jun, 2019

深度强化学习中的迁移语言基础

本文介绍了一种利用自然语言驱动强化学习传递的方法，并使用模型化强化学习方法和实体描述等技术，在不同环境下实现了更好的性能表现。

Aug, 2017

通过元学习用语言指导政策

本文提出了一种交互式的任务规范问题形式，通过自然语言指令和一系列语言修正来引导自主代理获得新技能，实现快速获取新技能，显著优于直接非交互式指令跟随。

Nov, 2018

不变性是泛化的关键：探究表征在视觉导航的从模拟到实际转移中的作用

数据驱动方法在机器人控制领域迅速发展，然而对未知任务领域的泛化仍然是一个关键挑战。我们认为泛化的关键在于具备足够丰富的表示以捕捉所有任务相关信息，并且对于训练与测试领域之间的无关变异具有不变性。我们实验研究了这样一种富含深度和语义信息的表示，用于视觉导航，并证明它使得完全在模拟室内场景中训练的控制策略能够泛化到多样的现实环境，包括室内和室外。此外，我们还展示了我们的表示减小了训练和测试领域之间的 A - 距离，从而改善了泛化误差的上界。我们提出的方法是可扩展的：随着基础模型在预训练期间吸收更多多样数据，学习策略会持续改进。

Oct, 2023

强化学习中的策略转移的小样本图像到语义翻译

本研究探讨采用图像到语义翻译技术进行政策传递，缓解基于视觉的机器人控制代理的学习困难问题。通过学习从图像到语义的映射，我们可以将在模拟器中预先训练的政策传递到现实世界中，从而消除学习花费和风险高的现实世界上策略的实时交互学习。此外，使用图像到语义映射在训练策略时具有计算效率和可解释性优势。我们提出了两种技术：在模拟器环境中使用转换函数的配对增强技术和主动学习，以解决图像到语义映射中的主要困难，即为产生训练数据的人工注释成本。我们观察到注释成本的降低，而传递的性能不会下降。因此，所提出的方法优于现有的未经注释的方法。

Jan, 2023

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

语言即力：在强化学习中使用自然语言表示状态

研究表明使用自然语言表征的强化学习代理比视觉代理更具鲁棒性，更快收敛，表现更好，展示出使用自然语言表征的好处。

Oct, 2019