BriefGPT.xyz
May, 2023
通用多语言文档编码器
A General-Purpose Multilingual Document Encoder
HTML
PDF
Onur Galoğlu, Robert Litschko, Goran Glavaš
TL;DR
本研究使用维基百科作为训练数据,通过交叉语言对比的目标来训练具有上下文感知的浅层文档转换器,它可以用于监督和非监督文档级任务。该模型在两个常见的跨语言文档级任务中比基于段落的表示和多语言Longformer表现更好,并成功推广到了未见过的语言上。
Abstract
Massively multilingual
pretrained transformers
(MMTs) have tremendously pushed the state of the art on
multilingual nlp
and
cross-lingual transfe
→