不留下任何文件:扩展多文档问答中的长上下文语言模型基准测试
基于 LooGLE 评估模型的表现,研究显示商业模型在短依赖任务上胜过开源模型,同时也揭示了长依赖任务的困难,并指出在短问答任务中检索式技术有着明显的好处,而扩展上下文窗口长度的策略对于长上下文理解的影响有限。
Nov, 2023
通过引入 LongBench,对 8 个大型语言模型进行全面评估,我们发现商业模型(GPT-3.5-Turbo-16k)优于其他开源模型,但在更长的语境下仍存在困难;在较长序列上进行的缩放位置嵌入和微调,在长语境理解方面带来了实质性的改进;检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进,但性能仍落后于具有强大长上下文理解能力的模型。
Aug, 2023
使用英文小说构建的 NovelQA 评估长上下文具有深层文本理解能力的 LLMs 的表现,结果强调了 LLMs 在多次推理、注重细节的问题和超过 100,000 个标记的极长输入方面面临的挑战,强调了进一步改进 LLMs 以提高其长上下文理解和计算文学研究的必要性。
Mar, 2024
通过构建一个多模式长上下文的基准数据集,本研究表明长上下文文档理解对于当前的大型视觉 - 语言模型 (LVLMs) 来说是个巨大挑战,并验证了未来研究更强大的长上下文 LVLMs 的必要性。
Jul, 2024
在这项研究中,我们介绍了 BABILong 基准测试,用于评估大型语言模型在处理长上下文时的效率。评估结果表明,目前流行的语言模型仅有效地利用上下文的 10-20%,并且在处理复杂的推理任务时性能急剧下降。在上下文推理的替代方法中,使用检索增强生成方法能够以最高 60%的准确率回答单个事实问题,而与上下文长度无关。对于上下文扩展方法,采用循环记忆变压器可以处理长度达 1100 万个标记。BABILong 基准测试可以扩展到任意长度,以支持评估具有更强能力的新模型,并为 1 百万个标记长度提供了分割。
Jun, 2024
我们介绍了一个长文本理解的基准测试 XL2Bench,其中包含三个场景:小说阅读、论文阅读和法律阅读,以及四个难度递增的任务:记忆检索、细节理解、整体理解和开放式生成,涵盖了 27 个子任务,用英文和中文表示,平均长度为 100K + 词(英文)和 200K + 字符(中文)。我们评估了六个领先的大型语言模型在 XL2Bench 上的表现,发现它们的性能明显落后于人类水平。此外,我们观察到在原始数据集和增强数据集上的性能下降,凸显了我们缓解数据污染的方法的有效性。
Apr, 2024
基于长上下文语言模型(LCLMs)的 LOFT 基准评估了 LCLMs 在上下文检索和推理方面的性能,发现它们能与最先进的检索系统和 RAG 系统媲美,但在像 SQL 一样需要组合推理的领域仍存在挑战,提示着需要继续研究随着上下文长度增长时的提示策略的影响。LOFT 为 LCLMs 提供了严格的测试平台,展示了随着模型能力的扩展,它们取代现有范式并解决新任务的潜力。
Jun, 2024
我们引入了 Ada-LEval,这是一个适用于评估 LLM 长上下文理解能力的长度可适应性基准测试,包括两个具有挑战性的子集 TSort 和 BestAnswer,通过评估 4 个最先进的闭源 API 模型和 6 个开源模型,证明了目前 LLM 在超长上下文环境中的局限性。
Apr, 2024
该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型(MLLMs)在长上下文和多图像任务中的适应能力,并发现开源 MLLMs 在长上下文情境中面临着挑战,尤其在涉及多图像的情景下。
Apr, 2024
在极限标签分类领域中,本研究介绍了一种专门的基准测试(LIConBench),重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上,发现在 20K 的令牌长度下,大部分大语言模型表现相对良好且受益于利用长上下文窗口,然而,在上下文窗口超过 20K 后,除了 GPT-4 之外,大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战,我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。
Apr, 2024