EMNLPDec, 2020
将预训练 Transformers 作为基于能量的 Cloze 模型
Pre-Training Transformers as Energy-Based Cloze Models
Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning
TL;DR介绍了一种基于能量的填空模型 Electric,用于文本表示学习,通过噪声对比估计算法进行训练。Electric 在下游任务表现优秀,特别是在对文本进行可能性评分方面表现出较高的效果,同时清晰地解析了 ELECTRA 预训练期间所学习的内容。