Aug, 2024

参考引导判决:大语言模型在自由文本自动评估中的应用

TL;DR本研究解决了当前开放式任务评估方法不足的问题,提出了一种参考引导判决方法,利用多个大语言模型作为评审者自动评估生成文本。实验表明,该方法显著提高了评估的可靠性和准确性,并与人类评估结果相关性强,成为传统指标和人类判断的有效替代方案。