关键词task-oriented dialogue (tod) systems
搜索结果 - 2
- 任务导向对话系统中用户满意度估计的因果评估
利用大型语言模型 (LLMs) 生成注重满意度的反事实对话以增加测试集中的原始对话样本,并通过人工注释验证,研究表明,与最先进的微调模型相比,开源的大型语言模型作为少样本的用户满意度评估器,在测试集中不满意标签数量的增加时表现出更高的鲁棒性 - EMNLP大型语言模型应用于开放领域意图发现和识别的评估:ChatGPT
ChatGPT 对 OOD 意图探索和广义意图探索进行了全面评估,并概述了 ChatGPT 的优势和劣势。ChatGPT 在零样本设置下展现了一致的优势,但与微调模型相比仍处于劣势。通过一系列分析实验,我们总结和讨论了 LLM 面临的挑战,