Jul, 2023

评估大型语言模型在生成准确教师回应方面的有效性

TL;DR通过评估多个基准生成模型在教育对话中提供信息和帮助学生的能力,本研究旨在模拟一个有知识的老师的角色,并发现 GPT-4 在教师 - 学生聊天记录子集上的优越性,测量标准是 BERTScore 和 DialogRPT,同时注意到采样、代表性和对话完整性等数据集特征对微调模型的一般化能力造成了显著挑战,最终强调了对这些生成模型进行评估的需求,其中评估标准不仅依赖于对话连贯性和匹配的语言建模分布,而且还依赖于模型展示教学技巧的能力。