May, 2024
评估由 OpenAI 的 GPT 生成的大型语言模型的文本摘要
Evaluating Text Summaries Generated by Large Language Models Using OpenAI's GPT
Hassan Shakil, Atqiya Munawara Mahi, Phuoc Nguyen, Zeydy Ortiz, Mamoun T. Mardini
TL;DR本研究通过使用传统的 ROUGE 和潜在语义分析(LSA)等指标,将 OpenAI 的 GPT 模型作为独立的评估者,评估了 Hugging Face 的六个基于 Transformer 的模型生成的文本摘要的效果。独特地,我们将 GPT 用作评估器而非摘要生成器,使其能够独立评估摘要的质量,而无需预定义的指标。我们的分析显示 GPT 评估与传统指标之间存在显著相关性,尤其是在评估相关性和连贯性方面。结果展示了 GPT 作为评估文本摘要的强大工具的潜力,提供了对已建立指标的补充洞察,并为自然语言处理任务中基于 Transformer 的模型的比较分析提供了依据。