BriefGPT.xyz
大模型
Ask
alpha
关键词
ddrp
搜索结果 - 1
ACL
通过减少表示混淆实现更好的预训练
本文重新研究了基于转换器的预训练语言模型,并找出了位置编码和模型表示中的两种不同类型的信息混淆,提出了 DDRP 编码和 MTH 预训练目标来改进预训练语言模型,并通过对 GLUE 基准测试的大量实验和消融研究表明了这种改进方法的有效性。
PDF
2 years ago
Prev
Next