BEIR-PL:波兰语零样本信息检索基准
BEIR(Benchmarking-IR)是一个针对信息检索的鲁棒性和异质性评估基准,通过对 18 个公开数据集的评估,发现 BM25 是一个强大的基线,而后期交互和重新排名模型通常可以实现最佳零 - shot 表现,但计算代价高,与此相反,密集和稀疏检索模型的计算效率更高,但往往表现得不如其他方法,突显了它们的可扩展性有很大的改进空间。
Apr, 2021
我们提出了一个综合的评估框架 - 波兰信息检索基准 (PIRB),其中包括 41 个用于波兰语的文本信息检索任务。该基准涵盖了现有数据集和 10 个涉及医学、法律、商业、物理学和语言学等多样主题的未公开数据集。我们对 20 多个密集和稀疏检索模型进行了广泛评估,包括我们训练的基准模型以及其他现有的波兰语和多语言方法。最后,我们介绍了一个由知识蒸馏、有监督微调和使用轻量级重新评分模型构建的稀疏 - 密集混合检索器的三步训练过程,以提高语言特定的检索器的效果。为了验证我们的方法,我们为波兰语训练了新的文本编码器,并将其结果与先前评估的方法进行了比较。我们的密集模型优于迄今为止最好的解决方案,而混合方法的使用进一步提高了它们的性能。
Feb, 2024
BEIR 是一个用于信息检索模型的零样本评估的基准数据集,我们提供了可重现的参考实现,并创建了官方自助 BEIR 排行榜以解决不同模型之间比较困难的问题。
Jun, 2023
本研究基于 Transformer 模型提出了一个基于多任务的波兰语言解析的测试基准,并介绍了针对该语言的 Transformer 模型 HerBERT,该模型在 9 个任务中表现最好,其中包括命名实体识别和情感分析等多个领域。
May, 2020
本文介绍了一个新的、全面的 Polish NLP 基准测试 LEPISZCZE 以及为其他低资源语言设计类似基准测试的蓝图,作者还提供了创建 Polish 基准测试时获得的洞察力和经验。
Nov, 2022
我们提供了 Belebele,这是一个涵盖了 122 种语言的多选机器阅读理解(MRC)数据集。该数据集显著扩展了自然语言理解(NLU)基准的语言覆盖范围,在高、中、低资源语言中评估了文本模型,从而使得对模型性能的直接比较成为可能。通过这个数据集,我们评估了多语言掩码语言模型(MLMs)和大型语言模型(LLMs)的能力,并得出了一些结论。
Aug, 2023
本文介绍了一种新的基于预训练语言模型的开放信息抽取基准测试,并证明该基准测试可以通过将预训练语言模型转化为零样本抽取系统,充分检查模型中存在的开放关系信息。
Oct, 2022
我们提出了一个信息检索任务的基准(BIRCO),它评估了信息检索系统在给定多方面用户目标的情况下检索文档的能力。该基准的复杂性和紧凑性使其适合评估基于大型语言模型(LLM)的信息检索系统。我们提出了一个模块化框架,用于研究可能影响 LLM 在检索任务上的性能的因素,并识别了一个简单的基准模型,它与现有方法和更复杂的替代方法相匹配或胜过。没有一种方法能够满足所有基准任务的性能要求,这表明需要更强大的模型和新的检索协议来满足复杂的用户需求。
Feb, 2024
提议一种语言公平度量标准,用于评估多语言信息检索系统在对不同语言的文档进行排序时是否存在公平性,并通过 Kruskal-Wallis 测试进行统计等价性检验。通过人工排名列表和实际检索系统的评估,得出 PEER 得分与以往对多语言信息检索系统公平性的分析结果具有一致性的结论。
May, 2024
我们引入了一个包含 7 个不同分类任务的少样本基准,这些任务使用波兰语进行描述。通过在商业和开源预训练模型中进行 0 和 16 次试验的经验比较,我们发现 ICL 获得了最佳表现,商业模型如 GPT-3.5 和 GPT-4 达到了最佳性能。然而,我们的最佳少样本学习分数与在整个训练数据集上微调的 HerBERT-large 性能之间仍然存在显著的 14 个百分点差距。在技术方面,SetFit 成为第二好的方法,紧随其后的是线性探测。非线性头部微调表现最差且不稳定。ICL 的结果表明,Mistral-7b 或 Llama-2-13b 等模型在波兰语语料库上的持续预训练是有益的。这一点通过 Bielik-7b 和 Trurl-13b 的表现提供了证实。为了进一步支持波兰语少样本学习的实验,我们将发布 ICL 的手工模板。
Apr, 2024