零样本对话摘要评估与小型大型语言模型

Nov, 2023

零样本对话摘要评估与小型大型语言模型

Zero-shot Conversational Summarization Evaluations with small Large Language Models

Ramesh Manuvinakurike, Saurav Sahay, Sangeeta Manepalli, Lama Nachman

TL;DR大型语言模型在会话摘要方面的能力有待探索，本研究评估了使用大约 100 亿个参数的语言模型在会话摘要上的性能，展示了其对各种提示的表现，并且证明了模型生成的摘要取决于指令，LLMs 在不同指令下的性能差异，如果提示选择不当，有时会导致 ROUGE 分数的显著下降，还通过人工评估对模型进行了评估，并讨论了模型在会话摘要方面的限制。

Abstract

large language models (LLMs) exhibit powerful summarization abilities. However, their capabilities on conversational summarization remains under explored. In this work we evaluate LLMs (approx. 10 billion paramet

large language models conversational summarization prompts rouge scores human evaluations

发现论文，激发创造

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023

大型语言模型：多样的角色扮演者用于摘要评估

本文提出了一种新的评估框架，基于 LLMs，并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度，并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件，并根据批处理提示设计了多角色扮演者提示技术，以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明，该模型非常具有竞争力，且与人类注释者具有非常高的一致性。

Mar, 2023

大型语言模型是否适合作为抽象概括的评估器？

本文旨在探讨使用 LLMS（例如 “gpt-3.5-turbo”）作为自动评估器来评估摘要的性能，并比较了不同的评估方法和提示格式对其评估能力的影响。作者建议哪些提示格式可以提高 LLM 的性能，并讨论了 LLM 的评估能力随摘要质量和评估维度的变化。

May, 2023

总结（几乎）已死

大型语言模型在总结任务中表现出令人满意的性能，超过了参考摘要的基准，人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要，因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。

Sep, 2023

关于大型语言模型中的位置偏差的总结化问题

对于大型语言模型，在抽象摘要任务中表现出色，但在多文档问答中存在输入上下文偏差，导致摘要内容分散，影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。

Oct, 2023

基于大型语言模型的可控指令摘要生成与评估能力基准测试

语言模型在标准的概括基准测试中已经取得了强大的性能，但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估，并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明，指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务，存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum，以促进未来的相关研究。

Nov, 2023

利用相關的靜態分析產品改進少樣本提示

本文研究了是否通过显式添加语义信息来改善大型语言模型在代码汇总任务中的性能，发现通过添加语义信息可以显著提高模型性能，特别是在 PHP 语言的 CodeSearchNet 数据集上。

Apr, 2023

大型语言模型的评估存在不一致和偏见

本研究通过使用 SummEval 数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

LLM 辅助的半监督式提取式对话摘要

使用未标记数据进行客户 - 代理商对话的摘要生成，通过将摘要问题建模为问答问题，使用大型语言模型生成伪标签，并通过精细调整专门的聊天总结模型来有效地从大型语言模型中转移知识。

Nov, 2023

一次创意主导的全部：用于观点摘要评估的 LLMs

我们使用 SUMMEVAL-OP 数据集评估意见摘要，使用大型语言模型作为参考自由指标，发现 Op-I-Prompt 是评估意见摘要的良好替代方法，与人类判断的平均斯皮尔曼相关性达到 0.70，超过了以前的所有方法。这是我们在意见摘要领域首次探索使用开源和闭源模型的大型语言模型作为评估器。

Feb, 2024