DOCBENCH:一种用于评估基于LLM的文档阅读系统的基准
通过独特的基准数据集NLPBench,评估了大型语言模型在自然语言处理中的问题解决能力,并发现高级提示策略的有效性不稳定,对LLMs 性能有时造成损害,尤其是较小的模型LLAMA-2(13亿参数)中表现更明显;同时发现大型语言模型在科学问题解决能力方面存在特定的不足,逻辑分解和推理的薄弱性明显影响结果。
Sep, 2023
在本文中,我们提出了一种评估大型语言模型(LLM)理解结构化文本能力的数据生成方法,并建立了一个包含8种不同结构化语言和29个特定任务的基准测试集。结果表明,最好的LLM在StructBench-Hard上的准确率为65.0%,而人类的准确率高达95.7%。此外,虽然使用StructBench进行微调可以增强现有LLM对所有结构化语言的理解,但并不一定提高所有任务类型的性能。
Jun, 2024
评估大语言模型在多文档任务上的能力的一个综合性基准(SEAM),通过重复评估和随机因素的抽样,揭示出静态基准无法观察到的潜在统计趋势,推动多文档任务的一致且有意义的评估。
Jun, 2024
通过构建一个多模式长上下文的基准数据集,本研究表明长上下文文档理解对于当前的大型视觉-语言模型(LVLMs)来说是个巨大挑战,并验证了未来研究更强大的长上下文LVLMs的必要性。
Jul, 2024
多模态大型语言模型在文档分析领域取得了重大进展,为了解决结构化文档中元素之间复杂互动的问题,引入了名为MindBench的新评估基准,包括真实或合成图像、详细注释、评估指标和基线模型,以及五种结构化理解和解析任务,展示了当前模型在处理结构化文档信息方面的潜力和改进空间。MindBench的推出将显著推进结构化文档分析技术的研究和应用开发。
Jul, 2024
评估大型语言模型在长文本情境下的能力,提出了一个用于评估双语长文本情境能力的逐渐增加难度的任务框架 NeedleBench,并通过 Ancestral Trace Challenge(ATC) 模拟了实际长文本任务中存在的复杂逻辑推理问题。结果表明,当前的大型语言模型在实际长文本应用中仍有很大的改进空间。
Jul, 2024
本研究针对大语言模型(LLMs)在长文本生成能力方面的不足,提出了层次化长文本生成基准(HelloBench),用于综合评估LLMs在多个任务上的表现。研究发现,当前大多数LLMs生成的文本长度受限,并存在严重的重复和质量下降问题,同时提出的HelloEval评估方法提供了更高效且与人工评估高度相关的评估方式。
Sep, 2024
当前的长文本基准主要专注于检索测试,缺乏对长文本生成能力的评估。为弥补这一空白,本研究提出了LongGenBench基准,支持自定义生成上下文长度,并要求大型语言模型生成连贯的长文本回答。研究发现,API访问和开源模型在长文本生成场景中的性能下降幅度可达47.1%,揭示了现有模型在处理长文本生成任务时的局限性。
Oct, 2024
本文针对当前长文本评估的不足,提出了LongGenBench基准,以全面评估大语言模型在长文本生成中的能力。研究显示,多种模型在长文本生成中表现出显著性能下降,其中API访问的模型下降幅度为1.2%到47.1%不等,而不同模型系列的下降趋势各异。
Oct, 2024