GPT-3 时代的新闻摘要和评估
本文介绍了如何使用 GPT-3 对大量的用户评论进行零样本情感总结,探讨了一些通用方法并对不同方法的信念忠实度、准确性和通用性等多个角度进行评估。
Nov, 2022
本文使用专业医学人士对 GPT-3 生成的医学文章摘要进行了评估,发现 GPT-3 虽然能够忠实地总结和简化单篇生物医学文章,但在多篇文章发现的证据综合方面存在困难。
May, 2023
本文介绍了关于文本摘要的各种方法,包括提取式和抽象式,并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例,展示了 ChatGPT 生成的摘要与人类参考的差异,并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向,提供了有价值的见解。
Feb, 2023
大型语言模型(LLM)的零摘要生成与人工编写的参考摘要相媲美,我们评估了零摘要生成摘要在生物医学文章等专业领域的实际性,并通过领域专家注释识别总结中的不一致性。
Feb, 2024
在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020
本文探讨了 GPT-3 在用户社交媒体帖子上对 Big 5 个性格特质的零样本估计能力,并发现其在粗分类上表现与现有的预训练模型相近,但在细粒度分类下表现不如常见类别基准,同时分析了 GPT-3 和预训练词汇模型表现较好和较差的领域,提出了改进 LNM 在人类级 NLP 任务上的建议。
Jun, 2023
本文研究使用最新的生成式预训练转换器(GPT)模型分析各种类型法律文件中一到几句话长度的文本片段的语义注释能力,结果表明该模型能够在零样本学习中表现出色,可广泛应用于语义注释的法律文本处理流程中。
May, 2023
大型语言模型在总结任务中表现出令人满意的性能,超过了参考摘要的基准,人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要,因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。
Sep, 2023
通过一系列实验,本文对可解释的事实核查进行了全面分析,重点研究了大型语言模型验证公共健康主张的能力,并提供解释或证明其真实性评估的能力。我们通过零 / 少提示和参数高效微调的形式,在各种开放和封闭源模型中,检验了它们在真实性预测和解释生成的孤立和联合任务中的效果。重要的是,我们采用了前期确认的自动度量标准和一套新标准的人工评估方式来进行双重评估。自动评估结果显示,在零提示场景下,GPT-4 是出类拔萃的表现者,但在少提示和参数高效微调的情况下,开放源模型不仅能够填补性能差距,而且在某些情况下超过了 GPT-4。人工评估显示出更多细微差异,并且指出了黄金解释可能存在的问题。
May, 2024
通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估,我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键,并通过从自由职业作家收集的高质量摘要进行人类评估,得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。
Jan, 2023