BriefGPT.xyz
Ask
alpha
关键词
cross-lingual language model pre-training
搜索结果 - 2
稀疏专家混合模型的表示崩溃
该研究提出了一种在低维超球面上估计令牌和专家之间路由得分的方法,克服了表示塌陷问题并取得了更为一致路由的实验结果。
PDF
2 years ago
ACL
InfoXLM: 跨语言语言模型预训练的信息理论框架
该研究提出了一种信息论框架,将跨语言语言模型预训练作为最大化多语言 - 多粒度文本之间的相互信息来表述,以提高预训练模型的跨语言可迁移性,并提出了一种基于对比学习的预训练任务,实现了更好的预训练模型性能。
PDF
4 years ago
Prev
Next