SEAM：多文档任务的随机基准

Jun, 2024

SEAM: A Stochastic Benchmark for Multi-Document Tasks

Gili Lior, Avi Caciularu, Arie Cattan, Shahar Levy, Ori Shapira...

TL;DR评估大语言模型在多文档任务上的能力的一个综合性基准 (SEAM)，通过重复评估和随机因素的抽样，揭示出静态基准无法观察到的潜在统计趋势，推动多文档任务的一致且有意义的评估。

Abstract

Various tasks, such as summarization, multi-hop question answering, or coreference resolution, are naturally phrased over collections of real-world documents. Such tasks present a unique set of challenges, revolving around the lack of coherent narrative structure across documents, which often leads to contradiction, omission, or repetition of information. De

multi-document tasks large language models seam benchmark evaluation

发现论文，激发创造

语义重叠归纳任务的 LLM 性能评估

应用 TELeR 分类法和 15 种流行的大型语言模型（LLMs），对语义重叠摘要任务进行全面评估，评估它们在从多个备选叙述中总结重叠信息的能力，通过使用 ROUGE、BERTscore 和 SEM-F1 等已建立的指标对两个不同数据集进行评估，并分析各种 LLMs 在捕捉重叠信息方面的优势和局限性。

Feb, 2024

SEED-Bench: 用生成理解评估多模态 LLMs 的基准

基于强大的大型语言模型（LLMs），最近的生成式多模态大型语言模型（MLLMs）作为一个关键的研究领域备受关注，展示了出色的理解和生成能力。本研究通过引入一个名为 SEED-Bench 的基准测试，解决了 MLLMs 生成理解的评估问题，该基准测试包含 19K 个准确的多项选择问题（是现有基准测试的 6 倍大），涵盖了 12 个评估维度，包括图像和视频模态的理解。我们开发了一个高级流程用于生成以特定评估维度为目标的多项选择问题，该流程整合了自动过滤和人工验证过程。由人类注释导出的带有真实选项的多项选择问题可以客观且高效地评估模型性能，在评估过程中无需人类或 GPT 的干预。我们进一步评估了 18 个模型在所有 12 个维度上的性能，涵盖了空间和时间的理解。通过评估结果揭示现有 MLLMs 的局限性，我们希望 SEED-Bench 为激发未来的研究提供见解。我们将建立并持续维护一个排行榜，为社区提供评估和研究模型能力的平台。

Jul, 2023

M4LE: 一个适用于大型语言模型的多能力多范围多任务多领域长上下文评估基准

我们提出了一个针对大型语言模型的多能力、多范围、多任务、多领域的长上下文评估基准（M4LE），并通过在 36 个 NLP 数据集、11 种任务类型和 12 个领域中用多样的 NLP 任务池来支持它。我们的研究揭示了当前的大型语言模型在理解长上下文方面的困难，尤其是在需要多个跨度注意力的任务上。我们的工作对于未来在这个具有挑战性的领域的研究具有有价值的参考价值。

Oct, 2023

SEED-Bench-2：多模态大型语言模型基准测试

我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对 23 个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。

Nov, 2023

USB：跨任务和领域的统一摘要基准

本研究提出一个多维理解摘要的基准测试，并在其上比较了多种模型的性能，发现中等规模的微调模型在多个任务上始终优于更大的几次提示语言模型。同时发现，对于某些任务，训练数据的数量比其来源领域更重要，而对于其他任务，尽管数据量有限，但特定领域的数据更为有益。

May, 2023

统一多场景摘要评估 (UMSE)

提出了一种用于三种摘要评估方案的统一多方案摘要评估模型（UMSE），其中使用扰动前缀调整方法来共享不同方案之间的信息，通过自监督训练偏向优化统一模型。在常见的标准数据集 SummEval 上进行的实验结果表明，UMSE 的性能可以与专门针对每种情况进行设计的现有强方法相媲美。

May, 2023

SEMQA: 半抽取式多源问答

最近提出的长篇问答（QA）系统，在大型语言模型（LLMs）的支持下，展示了令人期待的能力。然而，为其生成的抽象回答归因和验证可能困难，并且自动评估其准确性仍然是一个持续的挑战。在这项工作中，我们介绍了一个新的 QA 任务，通过半抽取方式总结多个多样化的来源来回答多回答问题。具体来说，半抽取多源 QA（SEMQA）要求模型输出一个综合回答，同时混合了由给定的输入来源直接拷贝的事实引用片段和将这些片段连接成一个连贯段落的非事实自由文本连接器。这个设置弥合了受基于事实抽取的 QA 系统约束的输出与更流畅但更难以归因的完全抽象回答之间的差距。特别地，它利用了语言模型的先进语言生成能力的新模式，同时通过设计产生易于验证、解释和评估的细致内联归因。为了研究这个任务，我们创建了第一个这样类型的数据集 QuoteSum，其中包含人工编写的对自然问题和生成问题的半抽取回答，并定义了基于文本的评估指标。在不同设置下尝试了几个 LLM 后，我们发现这个任务出人意料地具有挑战性，这展示了 QuoteSum 用于开发和研究这种整合能力的重要性。

Nov, 2023

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023

MME: 多模态大语言模型综合评估基准

本文介绍了第一代 MLLM 评估基准 - MME 模型，并对 10 种先进的 MLLM 模型进行了全面评估，同时对模型优化的潜在方向进行了研究。

Jun, 2023

MuLD: 多任务长文档基准

MuLD 是一个以文档长度为 10,000 个标记的新型长文档基准，旨在测试自然语言处理任务在长文档上的性能和解决方法。研究结果表明，使用增加上下文长度的 Transformer 模型能更好地解决该基准中的任务，这为进一步研究提供了启示。

Feb, 2022