LaMSUM: 一种使用 LLMs 的用户生成内容抽取式摘要的新框架
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
大型语言模型在总结任务中表现出令人满意的性能,超过了参考摘要的基准,人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要,因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。
Sep, 2023
该研究提出了一种新方法,即从长文档中提取关键句子,然后通过提示大型语言模型来评估摘要,以解决计算成本高、长文档中的重要信息往往被忽视的问题,研究结果显示该方法不仅显著降低了评估成本,而且与人工评估的相关性更高,此外,我们还提供了关于最佳文档长度和句子提取方法的实用建议,为基于大型语言模型的文本生成评估的成本效益更高且更准确的方法的发展做出了贡献。
Sep, 2023
通过 TriSum 框架,我们将大型语言模型的文本摘要能力提炼为一个紧凑且本地化的模型,以应对资源有限和注重隐私的环境。通过对各项任务进行演化式学习,我们的方法在各个评估基准上提升了本地化模型的性能,并提供了摘要的合理解释。
Mar, 2024
通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估,我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键,并通过从自由职业作家收集的高质量摘要进行人类评估,得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。
Jan, 2023
基于三层框架的科学情感总结方式,本研究提出了评估生成的元评价的质量的评估指标,并在广泛实验证明通过将此框架作为 LLMs 的提示生成元评价的假设在实证中是可行的。
Feb, 2024
对于大型语言模型,在抽象摘要任务中表现出色,但在多文档问答中存在输入上下文偏差,导致摘要内容分散,影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。
Oct, 2023
本文提出了一种新的学习范式,考虑到 LLMS 是常用摘要数据集中的参考标准,用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明,用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型,其性能可以与参考的 LLM 相媲美,通过访问 LLMS 它只需要很小的预算。
May, 2023
本文提出了一种新的评估框架,基于 LLMs,并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度,并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件,并根据批处理提示设计了多角色扮演者提示技术,以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明,该模型非常具有竞争力,且与人类注释者具有非常高的一致性。
Mar, 2023
在医疗笔记和对话中,非结构化文本具有丰富的信息。最近大型语言模型(LLMs)的进展展示了对非结构化文本数据的问题回答和摘要任务的卓越性能,超过了传统的文本分析方法。然而,在文献中缺乏有系统地评估和报告不同 LLMs 性能的科学研究,特别是针对医疗病历等特定领域数据。我们提出了一种评估方法来分析开源 LLMs(如 Llama2 和 Mistral)在医疗摘要任务中的性能,使用 GPT-4 作为评估器。我们创新的 LLMs 定量评估方法可以实现质量控制,支持为特定任务选择有效的 LLMs,并推进数字健康领域的知识发现。
May, 2024