Jun, 2022

深度强化学习的数据增强高效调度

TL;DR通过网络蒸馏方法,将语义一致性先验注入深度强化学习中以提高样本使用效率和泛化性能。