Jan, 2023

DADAgger:基于分歧扩增的数据集聚合

TL;DR本文介绍了一种改进的 DAgger 算法 ——DADAgger,它只针对其原数据集中的分布不一致的状态 - 行动对询问专家,并通过 dropout 模拟来测量每个状态的模型预测的行动方差,进而实现高效、良好平衡的训练数据集的构建。