利用智能体群体学习顺序任务嵌入

Jun, 2023

利用智能体群体学习顺序任务嵌入

Learning Embeddings for Sequential Tasks Using Population of Agents

Mridul Mahajan, Georgios Tzannetos, Goran Radanovic, Adish Singla

TL;DR本文提出了一个信息论框架，以学习固定维度的嵌入，用于强化学习任务。通过使用多样的智能体群集来衡量任务的相似性，本文描述了信息理论标准的直觉，该直觉是基于观察智能体在一个任务上的表现降低我们对其在另一项任务中表现的不确定性。在两个应用场景中，通过定量比较与强基线的效果，我们在预测智能体在测试任务上的表现以及从给定选项集中选择具有所需特性的任务方面展示了我们技术的有效性.

Abstract

We present an information-theoretic framework to learn fixed-dimensional embeddings for tasks in reinforcement learning. We leverage the idea that two tasks are similar to each other if observing an agent's perfo

information-theoretic framework fixed-dimensional embeddings reinforcement learning sequential decision-making task embeddings

发现论文，激发创造

多智能体强化学习中基于任务嵌入的团队合作适应

本文提出了一种使用多智能体任务嵌入（MATE）解决团队合作适应性问题的新方法，使用深度学习技术将任务嵌入到低维空间中进行编码和解码，利用 MATE 训练范例建立三种任务编码模型，通过分析测试结果发现，MATE 学习的任务嵌入鲜明区分不同的任务，并能在多任务情境下产生非常好的适应性效果。

Jul, 2022

Task2Vec: 元学习任务嵌入

本文介绍了一种提供视觉分类任务向量表示的方法，该表示可用于推断任务及其关系的性质，并提供了独立于细节（如类标签语义的理解等）的任务的固定维度嵌入。我们还展示了该框架的实用价值以及通过学习嵌入度量来选择预训练特征提取器的简单元学习框架。选择具有任务嵌入的特征提取器可获得接近最佳特征提取器的性能，而成本则显著低于对所有可用特征提取器进行详尽的训练和评估。

Feb, 2019

任务嵌入与共享策略的元强化学习

本研究提出了一种 meta-RL 方法，通过捕捉不同任务之间的共享信息和快速抽象任务特定信息的能力，使用任务编码器生成任务嵌入并在所有任务之间共享策略，实现在训练和新任务上的更好学习能力和更高回报率。

May, 2019

学习有关的内容：使用任务相关嵌入的跨域模仿学习

本研究提出了一种基于对抗训练的可扩展框架，用于实现基于跨领域演示的自主智能体学习任务的能力，通过学习映射来实现不同领域间的策略转移，解决了其他方法在许多领域方面存在的问题。

Sep, 2022

少样本模仿学习任务嵌入控制网络

该论文提出了一种基于测量学习的元学习方法：利用任务嵌入用于学习新的单个、多个实例任务，实现在真实世界中从单个演示中学习新任务的能力。

Oct, 2018

信息搜索智能体

本研究通过将深度神经网络和强化学习技术相结合，实现了一种基于内部奖励机制的主动信息搜寻系统，通过在部分可见的环境中寻找并整合信息以实现各种目标，实验表明这种方法可以显著提高智能体搜寻信息的效率。

Dec, 2016

动态感知嵌入

本文提出一种自监督表示学习方法，通过正向预测目标同时学习环境状态和动作序列的嵌入表示，以提高强化学习的采样效率和策略学习性能。研究表明，使用本文提出的动作嵌入表示已经能够在低维状态下有效提高模型无关的强化学习的采样效率和峰值性能。同时，结合状态嵌入和动作嵌入表示可以在只进行 100-200 万次环境步骤的情况下，快速、高效地学习高质量的基于目标条件的连续控制策略。

Aug, 2019

多任务深度强化学习中的知识共享

我们研究了在多任务强化学习中共享表示的益处，以实现深度神经网络的有效使用。我们利用从不同任务中学习、分享共同特性的假设，有助于推广知识，从而比学习单个任务更有效地进行特征提取。通过在广泛使用的强化学习基准上进行实证评估，我们提出了三种强化学习算法的多任务扩展，并证明了在样本效率和性能方面相较于单任务具有显著改进。

Jan, 2024

强化学习中基于对比行为相似性的嵌入用于泛化

该研究旨在提出一种基于顺序结构的强化学习方法来提高泛化能力，引入一种理论动机的策略相似度测量标准以及对比度表示学习方法，能够测量和嵌入任何状态相似度测量标准，从而达到改善类似于包含虚假相关性的 LQR、从像素到跳跃的任务以及 Distracting DM 控制套件等不同基准下的泛化效果。

Jan, 2021

多任务强化学习的样本复杂度

介绍了一种新的多任务算法用于强化学习任务，该算法显着减少了探索的每个任务的样本复杂性，并保证不会出现负转移，与对应的单任务算法相比具有可比性。

Sep, 2013