侦探QA:评估侦探小说中的长文脉络推理
为了评估和公平比较不同模型的长文本处理能力,我们提出了一个名为LOT的以故事为中心的基准测试,并发布了一个名为LongLM的编码器 - 解码器型中文长文本预训练模型,训练了两个生成任务和120G中文小说,LongLM在LOT中表现出在不同理解和生成任务方面优异的性能,胜过同等规模的预训练模型。
Aug, 2021
通过引入LongBench,对8个大型语言模型进行全面评估,我们发现商业模型(GPT-3.5-Turbo-16k)优于其他开源模型,但在更长的语境下仍存在困难;在较长序列上进行的缩放位置嵌入和微调,在长语境理解方面带来了实质性的改进;检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进,但性能仍落后于具有强大长上下文理解能力的模型。
Aug, 2023
基于LooGLE评估模型的表现,研究显示商业模型在短依赖任务上胜过开源模型,同时也揭示了长依赖任务的困难,并指出在短问答任务中检索式技术有着明显的好处,而扩展上下文窗口长度的策略对于长上下文理解的影响有限。
Nov, 2023
大语言模型处理长上下文是许多实际应用的关键,有必要评估和比较它们在处理100K+上下文时的能力。本文提出了第一个超过100K标记平均数据长度的大语言模型基准测试,对处理长上下文的现有模型进行了评价,并提出了对处理长上下文的大语言模型行为的三个有趣分析。
Feb, 2024
我们提出了一个用于评估长文本上下文下的大型语言模型的全面中文基准测试——CLongEval,特点是足够的数据量、广泛的适用性和高质量。通过对6个开源长文本上下文大型语言模型和2个领先的商业对手进行评估,我们对长文本上下文模型的关键能力进行了深入分析,并提供了数据集、评估脚本和模型输出。
Mar, 2024
使用英文小说构建的NovelQA评估长上下文具有深层文本理解能力的LLMs的表现,结果强调了LLMs在多次推理、注重细节的问题和超过100,000个标记的极长输入方面面临的挑战,强调了进一步改进LLMs以提高其长上下文理解和计算文学研究的必要性。
Mar, 2024
我们介绍了一个长文本理解的基准测试XL2Bench,其中包含三个场景:小说阅读、论文阅读和法律阅读,以及四个难度递增的任务:记忆检索、细节理解、整体理解和开放式生成,涵盖了27个子任务,用英文和中文表示,平均长度为100K+词(英文)和200K+字符(中文)。我们评估了六个领先的大型语言模型在XL2Bench上的表现,发现它们的性能明显落后于人类水平。此外,我们观察到在原始数据集和增强数据集上的性能下降,凸显了我们缓解数据污染的方法的有效性。
Apr, 2024
在这项研究中,我们介绍了BABILong基准测试,用于评估大型语言模型在处理长上下文时的效率。评估结果表明,目前流行的语言模型仅有效地利用上下文的10-20%,并且在处理复杂的推理任务时性能急剧下降。在上下文推理的替代方法中,使用检索增强生成方法能够以最高60%的准确率回答单个事实问题,而与上下文长度无关。对于上下文扩展方法,采用循环记忆变压器可以处理长度达1100万个标记。BABILong基准测试可以扩展到任意长度,以支持评估具有更强能力的新模型,并为1百万个标记长度提供了分割。
Jun, 2024
评估大型语言模型在长文本情境下的能力,提出了一个用于评估双语长文本情境能力的逐渐增加难度的任务框架 NeedleBench,并通过 Ancestral Trace Challenge(ATC) 模拟了实际长文本任务中存在的复杂逻辑推理问题。结果表明,当前的大型语言模型在实际长文本应用中仍有很大的改进空间。
Jul, 2024