自适应多模态奖励引导智能体

Sep, 2023

Guide Your Agent with Adaptive Multimodal Rewards

Changyeon Kim, Younggyo Seo, Hao Liu, Lisa Lee, Jinwoo Shin...

TL;DR通过使用自然语言任务描述和预训练的多模态编码器，我们提出了一种名为自适应返回条件策略（ARP）的高效框架，以增强代理的泛化能力，通过在预训练的多模态嵌入空间（如 CLIP）中计算视觉观察和自然语言指令之间的相似度作为奖励信号，并使用它训练具有多模态奖励标签的返回条件策略，从而有效地减轻目标误泛化。即使面对未知的文本指令，相比于现有的文本条件策略，我们的 ARP 通过提供每个时间步骤上的自适应信号，表现出卓越的泛化性能。为了提高奖励的质量，我们还引入了一种用于预训练的多模态编码器的微调方法，进一步增强性能。

Abstract

Developing an agent capable of adapting to unseen environments remains a difficult challenge in imitation learning. In this work, we present Adaptive Return-conditioned Policy (ARP), an efficient framework designed to enhance the agent's →

adaptive return-conditioned policy imitation learning generalization ability multimodal encoders natural language task descriptions

发现论文，激发创造

面向任务的多模态层次强化学习策略：视觉对话

通过多模态层次强化学习框架和状态适应技术，实现了语音和图像的目标驱动对话。在图像猜谜游戏中进行了实验，取得了良好的效果。

May, 2018

基于模型的策略优化与无监督模型适应

探究建模强化学习方法中真实和模拟数据之间的分布差异所带来的性能下降问题，并提出了一种全新的模型自适应框架 AMPO，使用 Wasserstein-1 距离来实现模型适应，结果在多项连续控制测试任务中实现了最先进的性能。

Oct, 2020

基于角色感知奖励分解的多智能体面向任务的对话策略学习

本文介绍了一种采用多智能体对话策略学习的方法，用于同时训练系统和用户策略，并通过角色感知奖励分解和行为者 - 评论家框架提高预训练和可扩展性。结果表明，该方法能够通过对话交互，使两个智能体成功完成任务。

Apr, 2020

多模态强化学习的有效性：模态对齐与重要性增强

提出了一种新的多模态强化学习方法，通过相似性和重要性对不同模态进行多模态对齐和重要性增强，以学习有效的状态表示并改善强化学习过程，实验证明在学习速度和策略质量方面优于现有方法。

Feb, 2023

多模态轨迹优化的重参数化策略学习

我们研究了在高维连续动作空间中参数化强化学习（RL）策略的挑战。我们的目标是开发一种多模式策略，以克服常用的高斯参数化方法固有的限制。为了实现这一目标，我们提出了一个原则性框架，将连续 RL 策略建模为最优轨迹的生成模型。通过将策略条件化于潜变量，我们导出了一种新颖的变分下界作为优化目标，以促进环境的探索。然后，我们提出了一种实用的基于模型的 RL 方法，称为重新参数化策略梯度（RPG），它利用多模式策略参数化和学习的世界模型来实现强大的探索能力和高效数据利用率。实证结果表明，我们的方法可以帮助 Agent 在具有密集奖励的任务中避免局部最优值，并通过结合面向对象的内在奖励来解决具有挑战性的稀疏奖励环境。我们的方法在各种任务中始终优于以前的方法。项目页面提供了代码和补充材料。

Jul, 2023

具有理论保证的多智能体策略互惠

本文提出了一种新的多智能体策略互惠（PR）框架，其中每个智能体可以在不匹配的状态下充分利用跨智能体策略，并定义了一个不匹配状态的邻接空间并设计一个即插即用模块的值迭代，以提高 PR 的可扩展性和稳定性，实验证明 PR 在离散和连续环境中优于现有的各种 RL 和转移 RL 方法。

Apr, 2023

Actor-Mimic: 深度多任务和转移强化学习

本研究提出了一种名为 “Actor-Mimic” 的多任务学习和迁移学习方法，通过深度强化学习和模型压缩技术来训练一个单一的策略网络，并通过多个专家教师的指导来学习在不同任务中的行为，并使用先前的知识解决新任务。研究结果表明，该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题，为了说明其效果，我们在 Atari 游戏上进行了测试。

Nov, 2015

多模态对抗仿真学习中的游戏角色生成

本论文提出了一种用于玩家测试的多重个人策略生成的新型模仿学习方法 —— 多模态生成对抗模仿学习（MultiGAIL），其使用辅助输入参数来学习不同的个人策略，基于生成对抗模仿学习的多重判别器作为奖励模型，通过比较代理和不同专家策略来推断出环境奖励，并根据辅助输入对每个判别器的奖励进行加权。实验分析证明了我们的技术在连续和离散行动空间的两个环境中的有效性。

Aug, 2023

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

自然语言引导的强化学习探索

本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法，使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联，并使用改进的策略塑造算法来指导智能体探索，从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价，表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。

Jul, 2017