Sep, 2023

自适应多模态奖励引导智能体

TL;DR通过使用自然语言任务描述和预训练的多模态编码器,我们提出了一种名为自适应返回条件策略(ARP)的高效框架,以增强代理的泛化能力,通过在预训练的多模态嵌入空间(如 CLIP)中计算视觉观察和自然语言指令之间的相似度作为奖励信号,并使用它训练具有多模态奖励标签的返回条件策略,从而有效地减轻目标误泛化。即使面对未知的文本指令,相比于现有的文本条件策略,我们的 ARP 通过提供每个时间步骤上的自适应信号,表现出卓越的泛化性能。为了提高奖励的质量,我们还引入了一种用于预训练的多模态编码器的微调方法,进一步增强性能。