Mar, 2022
策略优化中的不变性和奖励学习中的部分识别性
Invariance in Policy Optimisation and Partial Identifiability in Reward Learning
Joar Skalse, Matthew Farrugia-Roberts, Stuart Russell, Alessandro Abate, Adam Gleave
TL;DR研究奖励学习中数据来源的可识别性,通过设计和选择数据来源,分析数据来源和后续任务的不变性,从而提高政策优化的性能