May, 2023

通用多语言文档编码器

TL;DR本研究使用维基百科作为训练数据,通过交叉语言对比的目标来训练具有上下文感知的浅层文档转换器,它可以用于监督和非监督文档级任务。该模型在两个常见的跨语言文档级任务中比基于段落的表示和多语言 Longformer 表现更好,并成功推广到了未见过的语言上。