Apr, 2023
最佳多语言文件嵌入是否只是基于句子嵌入?
Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings?
TL;DR本研究系统地比较了使用LASER、LaBSE和Sentence BERT预训练的多语言模型从句子中生成文档级表示的方法,证明了对于多语言任务来说,通常使用句子嵌入的巧妙组合要优于将整个文档编码为单个单元,并且说明了虽然简单的句子平均值对于分类任务来说已经有一定的效果,但对于语义任务来说需要更复杂的组合。