利用大型语言模型作为参考学习自动摘要
通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估,我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键,并通过从自由职业作家收集的高质量摘要进行人类评估,得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。
Jan, 2023
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
本文旨在探讨使用 LLMS(例如 “gpt-3.5-turbo”)作为自动评估器来评估摘要的性能,并比较了不同的评估方法和提示格式对其评估能力的影响。作者建议哪些提示格式可以提高 LLM 的性能,并讨论了 LLM 的评估能力随摘要质量和评估维度的变化。
May, 2023
这篇研究论文使用了各种不同的大型语言模型,包括 MPT-7b-instruct,falcon-7b-instruct 和 OpenAI ChatGPT text-davinci-003 模型,通过不同的超参数对生成的摘要进行评估,并发现 text-davinci-003 模型的表现优于其他模型。该研究还分析了 CNN Daily Mail 和 XSum 两个不同的数据集,旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对 NLP 领域的研究人员和从业者提供了有价值的见解,同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。
Oct, 2023
大型语言模型在总结任务中表现出令人满意的性能,超过了参考摘要的基准,人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要,因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。
Sep, 2023
本文提出了一种新的评估框架,基于 LLMs,并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度,并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件,并根据批处理提示设计了多角色扮演者提示技术,以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明,该模型非常具有竞争力,且与人类注释者具有非常高的一致性。
Mar, 2023
通过 TriSum 框架,我们将大型语言模型的文本摘要能力提炼为一个紧凑且本地化的模型,以应对资源有限和注重隐私的环境。通过对各项任务进行演化式学习,我们的方法在各个评估基准上提升了本地化模型的性能,并提供了摘要的合理解释。
Mar, 2024
语言模型在标准的概括基准测试中已经取得了强大的性能,但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估,并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明,指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务,存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum,以促进未来的相关研究。
Nov, 2023
研究发现 CNN / DailyMail 和 BBC XSum 数据集的参考摘要存在噪音,因为这些摘要主要存在于事实幻觉和信息冗余方面。为了解决这个问题,他们提出了 “Summary Chain-of-Thought(SumCoT)” 技术,通过逐步摘要的方式生成细粒度的摘要。利用新的测试集,研究人员观察到 LLM 具有惊人的零 - shot 摘要能力,该技术旨在使他们将更细粒度的细节集成到与人类写作方式相关的最终摘要中。实验结果表明,该方法在两个数据集上的 ROUGE-L 优于现有技术。
May, 2023
通过评估大型语言模型对原始和扰动数据集上的摘要性能,我们使用关联改写方法来测量大型语言模型作为摘要器的稳健性,并发现大型语言模型对于扰动文章的摘要结果不一致,需要进一步改进。
Jun, 2024