评估 GPT-3.5 对共同主题下的欧洲宪法文本的意识和摘要能力
本文介绍了关于文本摘要的各种方法,包括提取式和抽象式,并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例,展示了 ChatGPT 生成的摘要与人类参考的差异,并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向,提供了有价值的见解。
Feb, 2023
本研究提出了一种抽象化汇总方法,可用于文档集合而非个别文档。我们的方法应用语义聚类、主题聚类内的文档大小缩减、聚类文件的语义分块、基于 GPT 的汇总和连接以及每个主题的综合情感和文本可视化,支持探索性数据分析。通过使用 ROGUE 汇总分数将我们的结果与现有的先进系统 BART、BRIO、PEGASUS 和 MoCa 进行了统计比较,我们发现在 CNN/Daily Mail 测试数据集上,性能与 BART 和 PEGASUS 相当,在 Gigaword 测试数据集上,性能与 BART 相当。这一发现是令人鼓舞的,因为我们认为文档集合的汇总比个别文档的汇总更具挑战性。最后,我们讨论了规模问题。
Oct, 2023
我们提出了一个新颖的法律摘要评估框架,利用 GPT-4 生成一系列覆盖参考摘要中主要观点和信息的问题 - 回答对。然后,根据参考摘要中的问题,利用 GPT-4 生成回答。最后,GPT-4 对参考摘要和生成摘要的回答进行评分,并检验了与人工评分之间的相关性,结果表明这种基于问题回答的 GPT-4 方法可以成为评估摘要质量的有用工具。
Sep, 2023
本文研究使用翻译的微文本、劝说性文章和 UKP 句子语料库的版本来微调 RuBERT 模型,然后使用此模型对经济新闻语料库进行注释,进而微调 ruGPT-3 模型,生成论证文本,并证明这种方法可以使论证生成的准确性提高超过 20 个百分点(63.2%与 42.5%相比)
Jun, 2022
本文使用专业医学人士对 GPT-3 生成的医学文章摘要进行了评估,发现 GPT-3 虽然能够忠实地总结和简化单篇生物医学文章,但在多篇文章发现的证据综合方面存在困难。
May, 2023
本研究通过使用传统的 ROUGE 和潜在语义分析(LSA)等指标,将 OpenAI 的 GPT 模型作为独立的评估者,评估了 Hugging Face 的六个基于 Transformer 的模型生成的文本摘要的效果。独特地,我们将 GPT 用作评估器而非摘要生成器,使其能够独立评估摘要的质量,而无需预定义的指标。我们的分析显示 GPT 评估与传统指标之间存在显著相关性,尤其是在评估相关性和连贯性方面。结果展示了 GPT 作为评估文本摘要的强大工具的潜力,提供了对已建立指标的补充洞察,并为自然语言处理任务中基于 Transformer 的模型的比较分析提供了依据。
May, 2024
本文介绍了如何使用 GPT-3 对大量的用户评论进行零样本情感总结,探讨了一些通用方法并对不同方法的信念忠实度、准确性和通用性等多个角度进行评估。
Nov, 2022
本文探讨如何应用跨语言和跨时期的文字连线技术在信息总结中的应用,并通过构建数据集、建模和评估得出结论:通过中间任务微调的端到端模型的总结质量一般;ChatGPT(无需微调)的总结质量良好,并与人类评分中相关;在对抗攻击的情况下,ChatGPT 在省略和实体替换方面的表现更好。
Jun, 2023
本文提出了 GUMSum 数据集,旨在评估抽象概括的英语摘要。该数据集高度约束,注重替换潜力、事实和忠实度,结果显示 GPT3 达到了令人印象深刻的得分,但仍然表现不如人类,并且不同类型的错误揭示了生成好概括的挑战。
Jun, 2023
本文研究 GPT-3 等零样本学习模型对新闻文本摘要的影响,发现零样本模型的摘要被人类普遍接受,且不会出现数据特异性问题,并探讨零样本摘要的评估问题和后续研究挑战。
Sep, 2022