Feb, 2025

MCQA评估:基于金标准准确性标签的自然语言生成中高效的信心评估

TL;DR本文解决了当前自然语言生成中信心评估依赖于不准确而昂贵的正确性函数的问题。通过引入MCQA-Eval框架,利用多选数据集中的金标准正确性标签,提出了一种新的评估方法,该方法能系统比较不同类型的信心评估方法。实验结果表明,MCQA-Eval在效率和可靠性上均优于现有方法。