GPT 模型是否能遵循人类摘要准则？评估 ChatGPT 和 GPT-4 在对话摘要中的应用

Oct, 2023

GPT 模型是否能遵循人类摘要准则？评估 ChatGPT 和 GPT-4 在对话摘要中的应用

Can GPT models Follow Human Summarization Guidelines? Evaluating ChatGPT and GPT-4 for Dialogue Summarization

Yongxin Zhou, Fabien Ringeval, François Portet

TL;DR该研究探索了 ChatGPT 和 GPT-4 等大型语言模型在遵循人类对话摘要指南方面的能力。研究使用 DialogSum 和 DECODA 进行了实验，测试了从现有文献和人类摘要指南中提取的不同提示以及一种两步提示方法。我们的研究结果表明，GPT 模型通常会产生冗长的摘要，并偏离人类摘要指南。然而，使用人类指南作为中间步骤显示出一定的潜力，在某些情况下优于直接的字数限制提示。结果显示，GPT 模型在摘要中表现出独特的文体倾向。虽然 BERTScores 并没有明显下降，说明 GPT 的输出在语义上与人类参考和专门的预训练模型具有相似性，但 ROUGE 分数揭示了 GPT 生成的摘要与人类撰写的摘要之间的语法和词汇差异。这些发现为 GPT 模型在遵循人类对话摘要指南方面的能力和局限性提供了启示。

Abstract

This study explores the capabilities of prompt-driven large language models (LLMs) like ChatGPT and GPT-4 in adhering to human guidelines for dialogue summarization. Experiments employed DialogSum (English social

large language models dialogue summarization human guidelines gpt models stylistic tendencies

发现论文，激发创造

探索基于 ChatGPT 的查询或基于方面的文本摘要的极限

本文介绍了关于文本摘要的各种方法，包括提取式和抽象式，并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例，展示了 ChatGPT 生成的摘要与人类参考的差异，并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向，提供了有价值的见解。

Feb, 2023

使用 ChatGPT 进行类人摘要评估

通过四种人类评估方法对五个数据集上的文本摘要进行评估，研究探讨了 ChatGPT 在人类化摘要评估方面的表现，ChatGPT 优于某些数据集上常用的自动评估指标。此外，研究还分析了不同提示对结果的影响，并与人工评估结果进行了比较，从而探讨了生成的解释和无效响应。

Apr, 2023

ChatGPT 与人类撰写文本：可控文本摘要与句子风格转移的洞见

本文研究 ChatGPT 在不同目标受众和写作风格下的表现，发现相比人类撰写的文章，ChatGPT 生成的样本在词汇类型分布等方面存在差异，并可能出现事实错误或幻觉。

Jun, 2023

ChatGPT 在语言使用上是否与人类相似？

通过 12 个预注册的实验，我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理，但是他们在一些方面与人类处理方式存在差异，并且可能通过 Transformer 架构来解释这些差异。

Mar, 2023

基于大型语言模型的文档级机器翻译

本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用，通过评估话语建模的能力，比较它与商业翻译系统和高级文档级机器翻译方法的性能，发现 Chat-GPT 在人类评估方面表现优异，同时揭示了话语建模的挑战和机遇。

Apr, 2023

大语言模型的文本摘要：MPT-7b-instruct、Falcon-7b-instruct 和 OpenAI Chat-GPT 模型的比较研究

这篇研究论文使用了各种不同的大型语言模型，包括 MPT-7b-instruct，falcon-7b-instruct 和 OpenAI ChatGPT text-davinci-003 模型，通过不同的超参数对生成的摘要进行评估，并发现 text-davinci-003 模型的表现优于其他模型。该研究还分析了 CNN Daily Mail 和 XSum 两个不同的数据集，旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对 NLP 领域的研究人员和从业者提供了有价值的见解，同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。

Oct, 2023

基于 ChatGPT 的跨语言摘要

使用互动提示进行零翻译交叉语言生成任务，ChatGPT 可以在信息性和简洁性之间保持平衡，并显着提高其交叉语言生成任务性能。ChatGPT 在三个常见交叉语言生成数据集上的实验结果表明，其优于高级的 GPT 3.5 模型 (text-davinci-003)。

Feb, 2023

大型语言模型与查询工程在生物医学多文档摘要中的应用

使用提示工程和 GPT-3.5 进行生物医学问题聚焦多文档摘要，我们的系统在 2023BioASQ 挑战中通过 GPT-3.5 和适当的提示获得了最佳的 ROUGE-F1 结果。这篇论文证实了在其他领域观察到的事实：纳入少样本的提示通常优于对应的零样本变体；检索增强生成实现了最大的改进。这些提示使得我们的最佳运行结果在 BioASQ11b 排名前两位，证明了在一般情况下，使用适当的提示对于大语言模型以及 GPT-3.5 在问题聚焦摘要中的强大作用。

Nov, 2023

通过盲评审和文本分类算法比较 ChatGPT 生成的抽象概括和真实概括

本研究通过使用自动度量和盲审人员评估 ChatGPT 在编写摘要上的表现，同时构建自动文本分类器以检测 ChatGPT 生成的摘要，并发现虽然文本分类算法可以区分真实和生成的摘要，但人类无法区分真实摘要和 ChatGPT 生成的摘要。

Mar, 2023

ChatGPT 作为新闻评论员：能否生成类似人类观点的 LLM？

研究了 GPT-3.5 在荷兰新闻文章上生成类似人类评论的能力，通过用多种提示技术进行人类相似度分析，并发现生成的 BERT 模型可以轻松区分人类写的评论和 GPT-3.5 生成的评论，且词汇多样性方面人类评论始终较高，表明生成性大语言模型在创造类似人类的有主观观点的评论方面仍然受限。

Dec, 2023