Jan, 2024

知识蒸馏抽象中的信心保持性质

TL;DR社交媒体平台通过检测帖子和评论的有害内容来防止恶意活动,为此,它们采用大规模的深度神经网络语言模型进行情感分析和内容理解。为了克服模型复杂、参数众多的缺点,行业专家采用了知识蒸馏压缩技术,其中训练了一个蒸馏模型以复制原始模型的分类行为。本研究探讨蒸馏的TinyBERT模型是否保持了原始BERT模型的置信度值,并探讨这种置信度保持特性如何引导蒸馏过程中的超参数调整。