Oct, 2022

神经精馏在强化学习中的状态表示瓶颈

TL;DR通过模拟多个策略的过程进行知识蒸馏以及使用单个神经网络来学习有利特征的状态表示,可用于强化学习的多个任务之间的转移和更好的泛化能力,并通过选择重要变量、有效分离状态以及新任务的鲁棒性等三个标准对状态编码进行评估。