May, 2023

数据增强对知识蒸馏的影响

TL;DR本研究发现知识蒸馏与微调在数据增强方面的偏好不同,鼓励学者探索针对知识蒸馏的数据增强方法,且合适的语义漂移度(例如,更改 30% 的令牌通常是知识蒸馏的最佳选项),并发现对于小型数据集,较大的语义漂移度更加适合,直至出现超出分布的问题。