Feb, 2025
MMTEB:大规模多语言文本嵌入基准
MMTEB: Massive Multilingual Text Embedding Benchmark
TL;DR本研究旨在解决现有文本嵌入评估受限于语言、领域和任务多样性的局限性,提出了大规模多语言文本嵌入基准(MMTEB),覆盖超过500个高质量控制的评估任务及250多种语言。论文的主要发现是,尽管大规模语言模型在特定语言和任务类别上表现优异,最优的公开模型“multilingual-e5-large-instruct”凭借560百万参数仍能取得领先,且通过新的下采样方法显著降低了计算成本。