阅读深层意义：利用作者进行短篇小说梗概评估大型语言模型

Mar, 2024

阅读深层意义：利用作者进行短篇小说梗概评估大型语言模型

Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers

Melanie Subbiah, Sean Zhang, Lydia B. Chilton, Kathleen McKeown

TL;DR最近的大型语言模型在总结短篇小说这一具有挑战性的任务上进行评估，结果显示这些模型在超过 50% 的总结中存在不忠实的错误，并且对于难以解释的含义也有困难，然而在最好的情况下，这些模型可以提供有思考深度的故事主题分析，并且我们还证明了语言模型对总结质量的评判与作者的反馈不一致。

Abstract

We evaluate recent large language models (LLMs) on the challenging task of summarizing short stories, which can be lengthy, and include nuanced subtext or scrambled timelines. Importantly, we work directly with a

large language models summarizing short stories summary quality faithfulness mistakes thematic analysis

发现论文，激发创造

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023

大语言模型的文本摘要：MPT-7b-instruct、Falcon-7b-instruct 和 OpenAI Chat-GPT 模型的比较研究

这篇研究论文使用了各种不同的大型语言模型，包括 MPT-7b-instruct，falcon-7b-instruct 和 OpenAI ChatGPT text-davinci-003 模型，通过不同的超参数对生成的摘要进行评估，并发现 text-davinci-003 模型的表现优于其他模型。该研究还分析了 CNN Daily Mail 和 XSum 两个不同的数据集，旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对 NLP 领域的研究人员和从业者提供了有价值的见解，同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。

Oct, 2023

大型语言模型：多样的角色扮演者用于摘要评估

本文提出了一种新的评估框架，基于 LLMs，并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度，并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件，并根据批处理提示设计了多角色扮演者提示技术，以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明，该模型非常具有竞争力，且与人类注释者具有非常高的一致性。

Mar, 2023

利用大型语言模型作为参考学习自动摘要

本文提出了一种新的学习范式，考虑到 LLMS 是常用摘要数据集中的参考标准，用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明，用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型，其性能可以与参考的 LLM 相媲美，通过访问 LLMS 它只需要很小的预算。

May, 2023

开源语言模型在医学文本数据摘要中的比较分析

在医疗笔记和对话中，非结构化文本具有丰富的信息。最近大型语言模型（LLMs）的进展展示了对非结构化文本数据的问题回答和摘要任务的卓越性能，超过了传统的文本分析方法。然而，在文献中缺乏有系统地评估和报告不同 LLMs 性能的科学研究，特别是针对医疗病历等特定领域数据。我们提出了一种评估方法来分析开源 LLMs（如 Llama2 和 Mistral）在医疗摘要任务中的性能，使用 GPT-4 作为评估器。我们创新的 LLMs 定量评估方法可以实现质量控制，支持为特定任务选择有效的 LLMs，并推进数字健康领域的知识发现。

May, 2024

大型语言模型是否适合作为抽象概括的评估器？

本文旨在探讨使用 LLMS（例如 “gpt-3.5-turbo”）作为自动评估器来评估摘要的性能，并比较了不同的评估方法和提示格式对其评估能力的影响。作者建议哪些提示格式可以提高 LLM 的性能，并讨论了 LLM 的评估能力随摘要质量和评估维度的变化。

May, 2023

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

临床文本摘要：大型语言模型的应用能超越人类专家

在本研究中，我们采用八个大型语言模型，在六个数据集和四个不同的摘要任务（放射学报告、患者问题、进展记录和医生 - 患者对话）上应用领域适应方法，系统评估了它们的效果，而且展示出最佳适应的大型语言模型的摘要相较于人工摘要在完整性和正确性方面更可取。此外，我们还将传统的自然语言处理指标与医生评分进行了相关性分析，以提高对这些指标与医生喜好的理解。最终，我们的研究证明了大型语言模型在多个临床文本摘要任务中超越人工专家，这意味着将大型语言模型整合到临床工作流程中可以减轻文档负担，使临床医生能够更多关注个性化患者护理和其他医学中不可替代的人工环节。

Sep, 2023

零样本对话摘要评估与小型大型语言模型

大型语言模型在会话摘要方面的能力有待探索，本研究评估了使用大约 100 亿个参数的语言模型在会话摘要上的性能，展示了其对各种提示的表现，并且证明了模型生成的摘要取决于指令，LLMs 在不同指令下的性能差异，如果提示选择不当，有时会导致 ROUGE 分数的显著下降，还通过人工评估对模型进行了评估，并讨论了模型在会话摘要方面的限制。

Nov, 2023

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023