BLESS：句子简化上的大型语言模型基准测试

EMNLPOct, 2023

BLESS：句子简化上的大型语言模型基准测试

BLESS: Benchmarking Large Language Models on Sentence Simplification

Tannon Kew, Alison Chi, Laura Vásquez-Rodríguez, Sweta Agrawal, Dennis Aumiller...

TL;DR我们提出了 BLESS，它是关于最新一代语言模型在文本简化任务上的全面性能基准。我们评估了 44 个模型在三个不同领域（维基百科、新闻、医学）的少样本测试集上的表现，并考察了这些模型的尺寸、架构、预训练方法和可访问性。我们采用一系列自动指标和大规模定量研究，揭示了这些模型执行的常见编辑操作类型。此外，我们对一部分模型输出进行了手动定性分析，以更好地评估生成的简化的质量。评估结果显示，最佳的语言模型，尽管没有在文本简化上进行过训练，与最新的文本简化基准相当。此外，我们发现某些语言模型展示了更大范围和多样性的编辑操作。我们的性能基准将作为未来文本简化方法和评估指标的资源。

Abstract

We present BLESS, a comprehensive performance benchmark of the most recent state-of-the-art large language models (LLMs) on the task of text simplification (TS). We examine how well off-the-shelf LLMs can solve t

performance benchmark large language models text simplification automatic metrics edit operations

发现论文，激发创造

基于大型语言模型的句子简化

本文使用零 / 少量数据训练的大型语言模型在众多基准测试集上进行了实验分析，结果表明 LLMs 优于最先进的句子简化方法，并被评为与人类标注者一致。

Feb, 2023

重新审视非英语文本简化：一个统一的多语言基准

该研究介绍了 MultiSim 基准，这是一个包含 27 种语言的 12 种不同语言资源的集合，其中包含超过 170 万个复杂 - 简单句对，使用预训练的多语言语言模型进行的实验表明具有激动人心的性能提升，证实了跨语言的可行性。

May, 2023

文本简化系统的无参考质量评估

本文探讨了针对在无参考文本的情况下，对简化文本进行质量估计的多种方法，并基于 QATS 2016 的数据集对多个方法进行了比较，最终发现基于 n-gram 的机器翻译度量（如 BLEU 和 METEOR）最能与语法正确性和意义保留的人工评估相匹配，而基于长度的度量方法则最适合衡量简明易懂程度。

Jan, 2019

词汇简化的深度学习方法：综述

本文针对近几年来人工智能 / 自然语言处理 community 中深度学习的进步，特别是大型语言模型和 prompt 学习的引入，在词汇简化领域（Lexical Simplification，LS）进行了全面的研究和调查，特别关注深度学习，在具体实践中展示了该任务的子任务，并提出未来的发展方向和基准数据集。

May, 2023

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023

NLPBench：评估大型语言模型在解决 NLP 问题上的能力

通过独特的基准数据集 NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对 LLMs 性能有时造成损害，尤其是较小的模型 LLAMA-2（13 亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

大型语言模型的文本到 SQL 能力基准测试：全面评估

通过构建新数据集和提出五个评估任务，全面评估不同方法在文本到 SQL 过程中的性能，揭示了大型语言模型之间的性能差异，并提出了针对每个任务的最佳上下文学习解决方案，为改进基于大型语言模型的文本到 SQL 系统的开发提供了有价值的见解。

Mar, 2024

利用编辑操作的端到端神经句子简化

通过句子级和标记级损失权重，使用自然语言处理模型对生物医学文本进行自动简化，以实现更接近人工注释者创建的简化文本的编辑距离，语言简约度和编辑数量。

Nov, 2023

基于基准生物医学文本处理任务的大规模语言模型全面评估

最近，大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而，尽管在各种任务中取得了成功，但以前的研究尚未调查它们在生物医学领域的能力。为此，本文旨在评估 LLMs 在基准生物医学任务中的性能。为此，我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知，这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是，基于我们的评估结果我们发现，在具有较小训练集的生物医学数据集中，零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明，在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现，在所有任务中没有单个 LLM 能够胜过其他 LLMs，不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比，它们的性能仍然相当差，但我们的研究结果表明，LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。

Oct, 2023

生物医学小白指南：规划大型语言模型

使用大型语言模型改进自动化文档摘要，尤其在简化复杂技术文件、生成背景知识、评估文本中起到了重要作用，并在医学文章的简化和评估方面做出了创新性的工作。

Feb, 2024