Dec, 2022

学习使辅助任务泛化的表示

TL;DR本文主要研究在 assistive tasks 中应用 sim2real 技术时的问题,并提出了一种解决方案 —— 通过学习一种好的 latent representation 来匹配 test-time humans 能够准确映射到的人类策略,并且在 test-time 进行 fine-tune,这样能够更好地结构化人类策略。