RepoQA:评估长上下文的代码理解
使用英文小说构建的 NovelQA 评估长上下文具有深层文本理解能力的 LLMs 的表现,结果强调了 LLMs 在多次推理、注重细节的问题和超过 100,000 个标记的极长输入方面面临的挑战,强调了进一步改进 LLMs 以提高其长上下文理解和计算文学研究的必要性。
Mar, 2024
基于 LooGLE 评估模型的表现,研究显示商业模型在短依赖任务上胜过开源模型,同时也揭示了长依赖任务的困难,并指出在短问答任务中检索式技术有着明显的好处,而扩展上下文窗口长度的策略对于长上下文理解的影响有限。
Nov, 2023
对多模态大语言模型进行了全面评估,介绍了一种用于长上下文能力评估的基准测试方法,包括多图像输入和图像拼接,以加大输入上下文长度,并开发了一个自动生成子图像级标签的协议。通过基于文本指令和图像内容描述,对 MLLMs 在长上下文图像输入中在一组图像中定位目标子图像的能力进行了压力测试。结果显示 GPT-4o 在长上下文情景中始终优于其他模型,但在负样本(即针未在抽屉中)中存在错误信息生成问题。此外,对 API 模型和开源模型进行了综合的长上下文评估,显示了相当大的性能差距。可通过提供的网址获取代码、数据和重现主要结果的指令。
Jun, 2024
基于长上下文语言模型(LCLMs)的 LOFT 基准评估了 LCLMs 在上下文检索和推理方面的性能,发现它们能与最先进的检索系统和 RAG 系统媲美,但在像 SQL 一样需要组合推理的领域仍存在挑战,提示着需要继续研究随着上下文长度增长时的提示策略的影响。LOFT 为 LCLMs 提供了严格的测试平台,展示了随着模型能力的扩展,它们取代现有范式并解决新任务的潜力。
Jun, 2024
评估长上下文语言模型的新综合性基准 RULER,包括类别多跳追踪和聚合测试行为,显示出在上下文长度增加时所提供的任务和性能急剧下降
Apr, 2024
通过使用大型语言模型的长期上下文能力,我们利用整本书籍创建合成阅读理解数据。我们提出了一个全面的自动化数据生成流程,包括问题生成、回答和模型评分。我们还发现将答案在模型之间进行相对比较,并使用 Bradley-Terry 模型进行排名,与绝对评分器相比,提供了一种更一致和区分性更强的评分机制。同时,我们展示了不同模型族的大型语言模型在评分方面的适度一致性。通过人工策划的 NarrativeQA 数据集验证了我们的方法,并且我们的评估器与人类判断达到了很好的一致性,甚至在数据集中发现了错误。使用我们的自动化评估方法,我们展示了与无上下文(参数化知识)和基于检索的方法相比,使用整本书籍作为上下文可以获得更优秀的阅读理解性能。
May, 2024
通过提出的基于自然语言指令的基准测试 RES-Q,对大型语言模型的指令遵循能力和代码仓库编辑系统进行了评估,发现模型能力存在差异,并提出了评估工具的需求。
Jun, 2024
我们提出了评估长上下文语言模型的标准化评估方法,开发了包含 411 个长文档和超过 2,000 个查询 - 回复对的 L-Eval,经过作者手工注释和检查。结果表明,开源模型在开放式任务和封闭式任务上都表现出令人印象深刻的性能,其中 LLaMA2 在 4k 上下文长度的开放式任务中获得最佳结果,而 ChatGLM2 在 8k 输入标记的封闭式任务中取得最佳结果。
Jul, 2023
通过引入 LongBench,对 8 个大型语言模型进行全面评估,我们发现商业模型(GPT-3.5-Turbo-16k)优于其他开源模型,但在更长的语境下仍存在困难;在较长序列上进行的缩放位置嵌入和微调,在长语境理解方面带来了实质性的改进;检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进,但性能仍落后于具有强大长上下文理解能力的模型。
Aug, 2023