北欧嵌入基准:多语言和单语文本嵌入的全面评估
本文介绍了 Massive Text Embedding Benchmark 评估了 33 种模型在 8 种嵌入任务和 112 种语言上的表现。结果发现,没有一种嵌入方法能够完全在所有任务上占优势,因此需要进一步研究和发展通用的文本嵌入方法。
Oct, 2022
我们扩展了大规模文本嵌入基准(MTEB)以针对法语提出首个句子嵌入大规模基准,通过与 46 个嵌入模型的大规模比较和全面的统计测试,我们发现大型多语言模型在句子相似度上进行预训练的效果尤为出色。
May, 2024
该研究介绍了波兰大规模文本嵌入基准(PL-MTEB),它是一个包含 28 个不同自然语言处理任务的全面基准,涉及五种任务类型。研究人员通过波兰 NLP 社区先前使用的数据集对这些任务进行了适应。此外,研究人员创建了一个名为 PLSC(波兰科学图书馆语料库)的新数据集,其中包括波兰科学出版物的标题和摘要,用作两个新的聚类任务的基础。他们评估了 15 个可公开获取的文本嵌入模型,其中包括波兰语和多语言模型,并为每个任务类型和整个基准收集了详细结果。PL-MTEB 提供开源代码。
May, 2024
该研究介绍了一套新颖的双语文本嵌入模型,能够处理长度长达 8192 个标记的文本输入,支持英语和目标语言,适用于文本检索、聚类和语义文本相似性计算等自然语言处理任务。通过专注于双语模型和引入独特的多任务学习目标,研究提高了 STS 任务模型性能,在目标语言理解和跨语言评估任务方面超过现有的多语言模型能力。此外,这些双语模型更高效,需要较少的参数和内存,因为它们具有较小的词汇需求。研究还扩展了大规模文本嵌入基准 (MTEB),加入了德语和西班牙语嵌入模型的基准,旨在促进这些语言的文本嵌入技术的进一步研究和发展。
Feb, 2024
本文介绍了一个名为 ScandEval 的斯堪的纳维亚基准平台,该平台可对四个不同任务的任何预训练模型进行基准测试。我们开发并发布了一个名为 scandeval 的 Python 软件包和命令行界面,可以对上传到 Hugging Face Hub 的任何模型进行基准测试,并提供可重复的结果。通过使用 ScandEval 软件包,我们对 100 多个斯堪的纳维亚或多语言模型进行基准测试,并在交互式在线排行榜中展示了这些结果,同时提供了结果分析。分析结果表明,在大陆斯堪的纳维亚语言之间存在很大的跨语言转移,而大陆斯堪的纳维亚语言组和岛屿斯堪的纳维亚语言组之间的跨语言转移有限。基准测试结果还表明,挪威、瑞典和丹麦的语言技术投资取得了优秀的成果,其语言模型性能超过了像 XLM-RoBERTa 和 mDeBERTaV3 之类的巨型多语言模型。我们同时发布了软件包和排行榜的源代码。
Apr, 2023
通过对最近大规模文本嵌入基准测试中表现最好的文本嵌入进行详细比较和分析,本文概述了通用文本嵌入模型的最新进展,突出了该领域的关键贡献和局限,并提出了潜在的灵感未来研究方向。
May, 2024
对不同领域中的聚类德语文本嵌入性能进行了基准评估,结果表明使用单语和多语模型进行评估的性能强劲且嵌入降维可以进一步改善聚类效果,另外,对德语 BERT 模型进行了持续预训练实验,结果显示在短文本中可能实现显著的性能改善。
Jan, 2024
该论文介绍了一个名为 XTREME 的跨语言多任务基准测试,它可以在 40 种语言和 9 个任务上评估多语言表示的跨语言泛化能力,研究表明,跨语言模型在句法和句子检索任务上的性能仍有相当大的差距,该基准测试旨在促进跨语言学习方法的研究。
Mar, 2020
大语言模型(LLM)革命中,嵌入是各种系统的关键组成部分。在本文中,我们迈出了迈向构建强大统一的嵌入模型的第一步,证明了多种语言(自然语言和编程语言)的预训练变换器解码器在有限英文数据微调后能够实现普遍嵌入。我们对各任务进行了全面实践和彻底评估,结果表明这是一条有希望的道路,可以应用于不同任务和语言。
Oct, 2023
本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法,以此取代传统基于翻译的方法评估系统,该方法表现良好并且能够可靠地估计模型在不同语言上的表现。
May, 2022