ACLApr, 2023

最佳多语言文件嵌入是否只是基于句子嵌入?

TL;DR本研究系统地比较了使用 LASER、LaBSE 和 Sentence BERT 预训练的多语言模型从句子中生成文档级表示的方法,证明了对于多语言任务来说,通常使用句子嵌入的巧妙组合要优于将整个文档编码为单个单元,并且说明了虽然简单的句子平均值对于分类任务来说已经有一定的效果,但对于语义任务来说需要更复杂的组合。