Jul, 2023

评估用于图到文本生成的生成模型

TL;DR本文探讨了生成模型在零样本情况下从图数据生成描述性文本的能力,并与微调后的语言模型进行了比较,在两个图到文本数据集上评估了 GPT-3 和 ChatGPT 的性能。结果表明生成模型能够生成流畅和连贯的文本,AGENDA 和 WebNLG 数据集的 BLEU 分别达到 10.57 和 11.08。然而,我们的错误分析发现生成模型仍然难以理解实体之间的语义关系,并且倾向于生成存在幻觉或无关信息的文本。作为错误分析的一部分,我们使用 BERT 检测机器生成的文本,并实现了较高的宏 F1 得分。我们已公开提供生成模型生成的文本。