Mar, 2022

策略优化中的不变性和奖励学习中的部分识别性

TL;DR研究奖励学习中数据来源的可识别性,通过设计和选择数据来源,分析数据来源和后续任务的不变性,从而提高政策优化的性能