May, 2023

一种离线时序学徒学习框架用于进化奖励函数

TL;DR本研究提出了一种离线时间感知分层 EM 能量子轨迹的学习框架,以应对医疗保健等人类中心任务中出现的不断变化的奖励函数,实验结果表明 THEMES 可以明显优于竞争的最新基线。