ICLRFeb, 2024

基于语言引导的状态抽象学习

TL;DR使用自然语言设计状态抽象来实现模仿学习的框架,该框架利用语言模型的背景知识和自然语言监督,自动构建针对未见任务的状态表示,并证明其提高了泛化性和稳健性,缩短了设计时间。