AAAIDec, 2023

大型语言模型作为自动对话评估器的有效性综合分析

TL;DR自动对话评估的研究中,大型语言模型、神经度量指标以及元评估数据集的应用,以及模型层次和维度层次的集成对评估性能的影响进行了全面的研究。