May, 2020

强化学习中特权信息丢弃

TL;DR本研究探讨了运用特权信息(privileged information)提高机器学习系统的样本效率和性能的方法,研究表明采用 Privileged Information Dropout 在强化学习任务中(无论是基于值还是基于策略的 RL 算法)都比其他方法如蒸馏(distillation)和辅助任务(auxiliary task)具有更优的性能,并能够成功利用不同类型的特权信息,最后分析了其对学习表现的影响。