TriSum: 从大型语言模型中学习结构化理由的文摘能力
本文提出了一种新的学习范式,考虑到 LLMS 是常用摘要数据集中的参考标准,用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明,用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型,其性能可以与参考的 LLM 相媲美,通过访问 LLMS 它只需要很小的预算。
May, 2023
这项研究通过利用投票算法,提出了一种新的框架 LaMSUM,通过大型语言模型生成用户生成的文本的摘要,结果显示 LaMSUM 优于现有的提取式摘要方法,同时试图解释语言模型生成的摘要产生的原因。
Jun, 2024
语言模型在标准的概括基准测试中已经取得了强大的性能,但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估,并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明,指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务,存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum,以促进未来的相关研究。
Nov, 2023
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
通过使用离线总结和运行时检索,我们提出了一种新颖的基于总结的方法,扩展了基于检索的个性化,以实现更好的实时系统性能,并在实际约束下取得了更好的个性化性能。
Oct, 2023
研究发现 CNN / DailyMail 和 BBC XSum 数据集的参考摘要存在噪音,因为这些摘要主要存在于事实幻觉和信息冗余方面。为了解决这个问题,他们提出了 “Summary Chain-of-Thought(SumCoT)” 技术,通过逐步摘要的方式生成细粒度的摘要。利用新的测试集,研究人员观察到 LLM 具有惊人的零 - shot 摘要能力,该技术旨在使他们将更细粒度的细节集成到与人类写作方式相关的最终摘要中。实验结果表明,该方法在两个数据集上的 ROUGE-L 优于现有技术。
May, 2023
通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估,我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键,并通过从自由职业作家收集的高质量摘要进行人类评估,得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。
Jan, 2023
本文提出了一种新的评估框架,基于 LLMs,并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度,并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件,并根据批处理提示设计了多角色扮演者提示技术,以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明,该模型非常具有竞争力,且与人类注释者具有非常高的一致性。
Mar, 2023
对大型语言模型(LLMs)在检索增强生成(RAG)式摘要任务中的鲁棒性进行了研究,提出了一种创新的评估框架 LogicSumm,通过现实场景评估 LLMs 在复杂的真实场景下的性能,并基于 LogicSumm 的限制提出了 SummRAG 系统,通过训练对话和模型微调来提高鲁棒性,实验证实了 SummRAG 的能力,展示了逻辑连贯性和摘要质量的提升。
Mar, 2024
通过使用大型语言模型(LLMs)和一系列提示和检查步骤,我们首次采取行动缓解 RNA 科学中缺乏编辑时间的问题,生成非编码 RNA 文献的摘要,并证明可以自动生成高质量、事实准确的摘要以及准确的参考文献。
Nov, 2023