MuLD: 多任务长文档基准
该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试,包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战,该基准测试可以用于测试和推广最先进的 LLMs 模型。
Jun, 2023
通过引入 LongBench,对 8 个大型语言模型进行全面评估,我们发现商业模型(GPT-3.5-Turbo-16k)优于其他开源模型,但在更长的语境下仍存在困难;在较长序列上进行的缩放位置嵌入和微调,在长语境理解方面带来了实质性的改进;检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进,但性能仍落后于具有强大长上下文理解能力的模型。
Aug, 2023
我们提出了一个针对大型语言模型的多能力、多范围、多任务、多领域的长上下文评估基准(M4LE),并通过在 36 个 NLP 数据集、11 种任务类型和 12 个领域中用多样的 NLP 任务池来支持它。我们的研究揭示了当前的大型语言模型在理解长上下文方面的困难,尤其是在需要多个跨度注意力的任务上。我们的工作对于未来在这个具有挑战性的领域的研究具有有价值的参考价值。
Oct, 2023
LLMs 在处理医疗保健领域的大量患者记录方面具有潜在的优势,但现有的基准测试不能充分评估 LLMs 在处理真实世界中的冗长临床数据方面的能力。通过提供包含 20 个详细虚构病例的 LongHealth 基准测试,每个案例包含 5090 至 6754 个单词,我们评估了九个开源 LLMs,并将 OpenAI 的专有成本效益高的 GPT-3.5 Turbo 作为比较。结果显示,Mixtral-8x7B-Instruct-v0.1 在从单个和多个患者文档中检索信息的任务上表现最好,但所有模型在需要识别缺失信息的任务中遇到了很大困难,强调了临床数据解释中需要改进的关键领域。然而,当前 LLMs 的准确性水平对于可靠的临床使用是不足的,尤其是在需要识别缺失信息的情景中。LongHealth 基准测试提供了在医疗保健环境中更真实的 LLMs 评估,并强调了进一步改进模型以实现安全有效的临床应用的需要。我们公开提供基准测试和评估代码。
Jan, 2024
通过构建一个多模式长上下文的基准数据集,本研究表明长上下文文档理解对于当前的大型视觉 - 语言模型 (LVLMs) 来说是个巨大挑战,并验证了未来研究更强大的长上下文 LVLMs 的必要性。
Jul, 2024
该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型(MLLMs)在长上下文和多图像任务中的适应能力,并发现开源 MLLMs 在长上下文情境中面临着挑战,尤其在涉及多图像的情景下。
Apr, 2024
我们介绍了一个长文本理解的基准测试 XL2Bench,其中包含三个场景:小说阅读、论文阅读和法律阅读,以及四个难度递增的任务:记忆检索、细节理解、整体理解和开放式生成,涵盖了 27 个子任务,用英文和中文表示,平均长度为 100K + 词(英文)和 200K + 字符(中文)。我们评估了六个领先的大型语言模型在 XL2Bench 上的表现,发现它们的性能明显落后于人类水平。此外,我们观察到在原始数据集和增强数据集上的性能下降,凸显了我们缓解数据污染的方法的有效性。
Apr, 2024
在极限标签分类领域中,本研究介绍了一种专门的基准测试(LIConBench),重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上,发现在 20K 的令牌长度下,大部分大语言模型表现相对良好且受益于利用长上下文窗口,然而,在上下文窗口超过 20K 后,除了 GPT-4 之外,大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战,我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。
Apr, 2024
本文提供了一个广泛的长文本分类的基准测试方法,包括二分类、多分类、多标签分类任务,研究发现更复杂的模型并不总是优于简单的基准模型,并且在不同数据集上表现不稳定,因此需要未来研究考虑更全面的基准模型和数据集以开发出更为稳健的模型。
Mar, 2022