Jul, 2019

环境探测交互策略

TL;DR通过引入EPI-policy,该研究提出了一种新的强化学习策略,可在新环境中提取环境特定信息,并将其作为附加输入提高任务特定策略的性能,并基于转移预测能力的奖励函数进行学习。在新环境中,这种EPI策略比通常使用的策略泛化方法要有效得多。