Jun, 2023

跨语言一致性正则化学习多语句子表示

TL;DRMuSR 是一种支持 220 多种语言的全能多语种句子表示模型,通过使用数十亿个英文为中心的平行语料库,采用使用跨语言一致性规则化技术的多语言 NMT 框架,以训练多语言 Transformer 编码器,并采用辅助 Transformer 解码器,实现了多语言相似性搜索和双文本挖掘任务,表现优于由 148 个独立的多语种句子编码器组成的 LASER3。