BriefGPT.xyz
大模型
Ask
alpha
关键词
dialog evaluation
搜索结果 - 3
理解大型语言模型在对话评估中的效果
本文探讨了大型语言模型在对话评估上的应用,发现训练模型的数据集的多样性和相关性是影响其性能的关键因素,同时探究了样本数量和使用类型对模型表现的影响。
PDF
a year ago
对话评估指标的全面评估
这篇论文对 23 种不同的自动评估度量在 10 个不同的数据集上进行了评估,并在不同的设置中对其进行了评估,从而更好地确定它们各自的优缺点。综合评估提供了关于对话评估指标的几个认识,为未来的研究提供了有用的指导。
PDF
3 years ago
NIPS
基于主题的对话机器人评估
使用基于话题的度量标准来评估对话质量,包括考虑对话机器人在话题上维持连贯和有吸引力的对话能力及其多样性,并采用深度平均网络和话题分类器检测每个话语的对话话题,进一步引入话题关注表以捕捉话语中的话题关键字以及执行话题分类。经过与用户提供的评分
→
PDF
6 years ago
Prev
Next