Aug, 2023

BERT 模型的知识蒸馏改进:损失函数、映射方法和权重调整

TL;DR本研究使用了 Transformer-based 模型(如 BERT、GPT 和 T5),并进行了知识蒸馏来进行模型压缩,特别关注 TinyBERT 学生模型。通过实验不同的损失函数、Transformer 层映射方法和注意力和表示损失的权重调整,评估了提出的方法在 GLUE 基准测试的若干下游任务上的效果,旨在提高知识蒸馏技术的效率和准确性,为各种自然语言处理任务的开发提供更高效和准确的模型。