ACLMay, 2023

AlignScore: 用统一的对齐函数评估实际一致性

TL;DR本文提出了一个新的综合指标 AlignScore,基于信息对齐来评估各种实际不一致性场景,包含了 7 个知名任务的 4.7M 数据来源的统一训练框架,重点在于我们进行了大量的实验,得出 AlignScore 在测试中的显著优势,且能够匹敌比其大数个数量级的 ChatGPT 和 GPT-4 等度量标准。