Aug, 2024

苏打评估:大语言模型时代的开放领域对话评估

TL;DR本研究解决了当前开放领域对话评估中缺乏适应现代聊天机器人的基准问题。通过引入基于Soda的Soda-Eval数据集,该数据集提供了超过12万次对话轮次的评估注释,并使用此基准评估多种开放获取的指令调优模型,发现对话评估仍然面临挑战,模型微调提升了评估效果。