EMNLPNov, 2023

通过信息瓶颈原理进行文本表示精简

TL;DR为了使模型更加易用,我们提出了一种基于信息瓶颈的知识蒸馏方法 IBKD,通过最大化教师模型和学生模型的最终表示之间的互信息,并减少学生模型表示和输入数据之间的互信息,以保留重要的学习信息并避免过拟合的风险,从而有效地在文本表示和下游任务中应用。