新闻摘要的大型语言模型基准测试
大型语言模型在总结任务中表现出令人满意的性能,超过了参考摘要的基准,人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要,因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。
Sep, 2023
语言模型在标准的概括基准测试中已经取得了强大的性能,但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估,并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明,指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务,存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum,以促进未来的相关研究。
Nov, 2023
大型语言模型在会话摘要方面的能力有待探索,本研究评估了使用大约 100 亿个参数的语言模型在会话摘要上的性能,展示了其对各种提示的表现,并且证明了模型生成的摘要取决于指令,LLMs 在不同指令下的性能差异,如果提示选择不当,有时会导致 ROUGE 分数的显著下降,还通过人工评估对模型进行了评估,并讨论了模型在会话摘要方面的限制。
Nov, 2023
本文旨在探讨使用 LLMS(例如 “gpt-3.5-turbo”)作为自动评估器来评估摘要的性能,并比较了不同的评估方法和提示格式对其评估能力的影响。作者建议哪些提示格式可以提高 LLM 的性能,并讨论了 LLM 的评估能力随摘要质量和评估维度的变化。
May, 2023
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
本文提出了一种新的学习范式,考虑到 LLMS 是常用摘要数据集中的参考标准,用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明,用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型,其性能可以与参考的 LLM 相媲美,通过访问 LLMS 它只需要很小的预算。
May, 2023
对于大型语言模型,在抽象摘要任务中表现出色,但在多文档问答中存在输入上下文偏差,导致摘要内容分散,影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。
Oct, 2023
本文提出了一种新的评估框架,基于 LLMs,并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度,并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件,并根据批处理提示设计了多角色扮演者提示技术,以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明,该模型非常具有竞争力,且与人类注释者具有非常高的一致性。
Mar, 2023
在本研究中,我们采用八个大型语言模型,在六个数据集和四个不同的摘要任务(放射学报告、患者问题、进展记录和医生 - 患者对话)上应用领域适应方法,系统评估了它们的效果,而且展示出最佳适应的大型语言模型的摘要相较于人工摘要在完整性和正确性方面更可取。此外,我们还将传统的自然语言处理指标与医生评分进行了相关性分析,以提高对这些指标与医生喜好的理解。最终,我们的研究证明了大型语言模型在多个临床文本摘要任务中超越人工专家,这意味着将大型语言模型整合到临床工作流程中可以减轻文档负担,使临床医生能够更多关注个性化患者护理和其他医学中不可替代的人工环节。
Sep, 2023
研究大型语言模型在科学摘要任务上的可控性问题,通过控制文体特征发现没有经过微调的大型语言模型在 MuP 评审生成任务方面优于人类,同时表明我们可以通过基于关键词的无分类器引导来提高语言模型的可控性,从而在 arXiv 和 PubMed 上实现与强基线的词汇重叠相当的结果。然而,研究结果还表明大型语言模型无法一致生成超过 8 个句子的长摘要,且在生成高度抽象的通俗摘要方面存在有限能力,因此在领域特定应用中,仍然存在着需要昂贵微调才能解决的问题。
Jan, 2024