Mar, 2023

ChatGPT 是一种好的 NLG 评估器吗?初步研究

TL;DR研究通过在三个常用的 NLG 元评估数据集上实验,评估 ChatGPT 作为 NLG 指标的可靠性,结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。