使用强化学习进行视觉概念的组合学习

Sep, 2023

使用强化学习进行视觉概念的组合学习

Compositional Learning of Visually-Grounded Concepts Using Reinforcement

Zijun Lin, Haidi Azaman, M Ganesh Kumar, Cheston Tan

TL;DR深度强化学习代理需要数百万次训练以解决与指令相关的导航任务，对于其泛化到新颖指令组合的能力还不清楚。然而，有趣的是，儿童能够将基于语言的指令分解并导航到所指对象，即使他们以前没有见过这种查询的组合。因此，我们创建了三个 3D 环境来研究深度强化学习代理如何学习和组合基于颜色和形状的组合指令来解决空间导航任务中的新颖组合。首先，我们探索代理是否能进行组合学习，并且它们是否可以利用冻结的文本编码器（例如 CLIP，BERT）在较少的训练次数内学习词组合。接下来，我们证明当代理在形状或颜色概念上预训练时，它们解决未见组合指令所需的训练次数减少了 20 倍。最后，我们展示了在概念和组合学习上进行预训练的代理在评估时的零样本状态下，对新的颜色 - 形状 1 - 形状 2 视觉对象组合获得了显著更高的奖励。总体而言，我们的结果凸显了通过强化学习增强代理组合词语的能力以及其对新组合的零样本泛化能力所需的基础。

Abstract

deep reinforcement learning agents need to be trained over millions of episodes to decently solve navigation tasks grounded to instructions. Furthermore, their ability to generalize to novel combinations of instructions is unclear. Interestingly however, children can decompose language

deep reinforcement learning agents compositional learning color-shape based combinatorial instructions spatial navigation task zero-shot generalization

发现论文，激发创造

语言作为层次深度强化学习的抽象

本文提出了使用语言作为抽象概念的层次强化学习方法，通过学习基本概念和子技能来解决时间延长的任务，构建了开源对象交互环境，证明了采用这种方法，代理可以从原始像素观察中学习解决多样化的任务，语言的组合性质使得学习多种子技能变得关键。

Jun, 2019

零样本组合强化学习环境生成

通过训练生成器创建任务序列的自动课程表，以使强化学习代理能够完成复杂的组合任务，提高其健壮性和泛化能力，我们提出了一种名为 CoDE 的新算法，并对其进行了分析和评估

Jan, 2022

使用组合策略学习遵循语言指令

提出了一种基于强化学习和 seq2seq 模型的自然语言指令执行框架，利用布尔代数、组合价值函数和语言表示等技术，大大减少学习新任务的样本复杂度，实验中发现组合价值函数和语言表示的结合使得 agent 能够快速推广到新任务。

Oct, 2021

基于神经组合的模块化终身强化学习

本文提出了一种基于神经模块的组成式学习方式，探讨了在连续强化学习模型下的可重复利用子问题解决方案，并且通过离线重放经验保持表现以加速未来任务学习的累积神经组件复合持续强化学习方法。

Jul, 2022

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

使用深度强化学习组合无关任务的策略

本文介绍了一种基于深度强化学习的技能转移和组合方法，该方法将智能体的原始策略应用到解决未知任务中，并可在高数据效率下解决需要任务规划和动作控制的挑战性环境。

May, 2019

从原始视觉输入中学习组合式取反通信

本文介绍了一种利用神经代理从原始图像像素中学习视觉感知，并使用一系列离散符号进行通信的方法，以进行图像描述游戏。通过定性分析、可视化和零样本测试，证明了代理可以在适当的环境压力下从原始图像像素中发展出复合属性的语言。

Apr, 2018

使用强化学习学习将单词组合成句子

使用强化学习学习树形神经网络，以计算自然语言句子的表示形式。优化树形结构以提高下游任务的性能，实验证明学习任务特定的组合顺序的好处，优于基于树库注释的顺序编码器和递归编码器。分析所发现的树形结构，发现了一些语言直观的结构，但这些结构与传统的英语句法结构是不同的。

Nov, 2016

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

基于物体中心表征的自监督视觉强化学习

该研究提出了使用基于物体的表征作为组成性生成世界模型所学习的模块化和结构化观察空间，以帮助自主代理发现和学习有用的技能，并进一步将这些技能组合起来解决复杂的组合任务。

Nov, 2020