通过 TriSum 框架,我们将大型语言模型的文本摘要能力提炼为一个紧凑且本地化的模型,以应对资源有限和注重隐私的环境。通过对各项任务进行演化式学习,我们的方法在各个评估基准上提升了本地化模型的性能,并提供了摘要的合理解释。
Mar, 2024
通过 Attribute Structuring (AS) 框架对临床信息的综述进行评价和解释,从而提高临床文本摘要的质量和可靠性,实现资源受限情况下对临床信息的可信评估。
这项研究通过利用投票算法,提出了一种新的框架 LaMSUM,通过大型语言模型生成用户生成的文本的摘要,结果显示 LaMSUM 优于现有的提取式摘要方法,同时试图解释语言模型生成的摘要产生的原因。
Jun, 2024
该研究提出了一种新方法,即从长文档中提取关键句子,然后通过提示大型语言模型来评估摘要,以解决计算成本高、长文档中的重要信息往往被忽视的问题,研究结果显示该方法不仅显著降低了评估成本,而且与人工评估的相关性更高,此外,我们还提供了关于最佳文档长度和句子提取方法的实用建议,为基于大型语言模型的文本生成评估的成本效益更高且更准确的方法的发展做出了贡献。
Sep, 2023
本文提出了一种新的学习范式,考虑到 LLMS 是常用摘要数据集中的参考标准,用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明,用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型,其性能可以与参考的 LLM 相媲美,通过访问 LLMS 它只需要很小的预算。
May, 2023
对于大型语言模型,在抽象摘要任务中表现出色,但在多文档问答中存在输入上下文偏差,导致摘要内容分散,影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。
Oct, 2023
通过生成式大型语言模型和抽象总结以及标准驱动的比较终点,该研究开发了一种能够在不同领域进行高效信息比较的系统,利用语义文本相似性比较生成基于证据的分析,克服了模型推理中的信息上下文和令牌限制的困难,提供了可行的结果并实现了自动化的大规模信息比较。
Apr, 2024
本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较,发现相对于参考摘要而言,由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析,最终提出了对于提高抽象化摘要生成的学习方法的思考。
Feb, 2020
语言模型在标准的概括基准测试中已经取得了强大的性能,但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估,并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明,指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务,存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum,以促进未来的相关研究。
Nov, 2023
通过使用离线总结和运行时检索,我们提出了一种新颖的基于总结的方法,扩展了基于检索的个性化,以实现更好的实时系统性能,并在实际约束下取得了更好的个性化性能。