ACLMay, 2023

预训练语言模型作为多角度课程学习者

TL;DR本文针对 ELECTRA 预训练生成器与判别器训练时出现的单调训练和交互不足的问题,提出了一种多角度课程学习(MCL)算法。该算法通过将 MLM 缺点和标注标签平衡考虑在内的三个自监督课程设计,解决了单调训练和标签不平衡等问题。由于判别器与生成器无明确的反馈循环,该算法提出了两个自我修正课程,以创建 “修正笔记本” 进行辅助监督,弥合两个编码器之间的差距。生动实验表明,该算法使平均表现提高 2.8%和 3.2%,超过了同样设置下最近的先进 ELECTRA 样式模型。