Apr, 2020

神经模型中不同层次的决策是如何产生的?可微掩模解释

TL;DR该研究提出了一种Differentiable Masking的方法,通过预测而非搜索的方式学习掩蔽输入的子集,以此解决模型剪枝的过于激进以及揭示模型层之间的决策形成,研究了DiffMask在BERT模型上对情感分类和问答的应用。