Mar, 2024

任务导向对话系统中用户满意度估计的因果评估

TL;DR利用大型语言模型 (LLMs) 生成注重满意度的反事实对话以增加测试集中的原始对话样本,并通过人工注释验证,研究表明,与最先进的微调模型相比,开源的大型语言模型作为少样本的用户满意度评估器,在测试集中不满意标签数量的增加时表现出更高的鲁棒性。