Apr, 2024

RepEval: LLM 表征的有效文本评估

TL;DR自动生成文本的自动评估指标在自然语言生成领域中起着重要作用,特别是随着大规模语言模型的快速发展。然而,现有的评估指标通常局限于特定情景,因此需要新的、灵活和有效的指标。本研究介绍了 RepEval,这是第一个利用 LLM 表示的投影进行评估的指标,通过简单的提示修改,能够轻松适应各种任务。在三个任务中的十个数据集上的结果表明我们方法的高效性,与以前的指标相比,甚至超过了 GPT-4,突显了 LLM 表示中嵌入的有关文本质量的丰富信息,为新指标的开发提供了洞见。