Oct, 2023

通过观测映射和行为克隆的少样本策略转移框架

TL;DR通过观察映射和行为克隆,本文提出了一个针对两个领域的少样本策略传递框架,利用生成对抗网络(GANs)和循环一致性损失将源领域和目标领域之间的观察映射,并将获取的映射用于将成功的源任务行为策略克隆到目标领域,进而实现有限目标任务交互情况下和源领域与目标领域在语义上不相似的情况下的成功行为策略传递。