Oct, 2023

GPT 模型是否能遵循人类摘要准则?评估 ChatGPT 和 GPT-4 在对话摘要中的应用

TL;DR该研究探索了 ChatGPT 和 GPT-4 等大型语言模型在遵循人类对话摘要指南方面的能力。研究使用 DialogSum 和 DECODA 进行了实验,测试了从现有文献和人类摘要指南中提取的不同提示以及一种两步提示方法。我们的研究结果表明,GPT 模型通常会产生冗长的摘要,并偏离人类摘要指南。然而,使用人类指南作为中间步骤显示出一定的潜力,在某些情况下优于直接的字数限制提示。结果显示,GPT 模型在摘要中表现出独特的文体倾向。虽然 BERTScores 并没有明显下降,说明 GPT 的输出在语义上与人类参考和专门的预训练模型具有相似性,但 ROUGE 分数揭示了 GPT 生成的摘要与人类撰写的摘要之间的语法和词汇差异。这些发现为 GPT 模型在遵循人类对话摘要指南方面的能力和局限性提供了启示。