BriefGPT.xyz
大模型
Ask
alpha
关键词
automatic dialogue evaluation metrics
搜索结果 - 2
简单的 LLM 提示是稳健多语言对话评估的尖端技术
研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式,提出了一种新颖的框架,以实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果,并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁
→
PDF
10 months ago
AAAI
MDD-Eval:基于增强数据的自训练多领域对话评估
提出了 MDD-Eval 框架,通过对话内评价与跨领域自学得到多领域评价能力,从而使得相较于现有自动对话评价指标,其在 6 个评价基准测试中可以取得 7% 的平均 Spearman 相关性分数的显著提高。
PDF
3 years ago
Prev
Next