Jul, 2023

GPT-4 和人类评分员对合成对话中赞扬给予学生的评估的比较分析

TL;DR研究发现,提供具体及时的反馈可以提高人类导师的表现,但由于评估导师表现的时间消耗性质,给出具体及时的反馈存在挑战,然而使用大语言模型 (如 AI-chatbot ChatGPT) 来为实际应用中的导师提供建设性反馈有潜力。 这项工作在导师 - 学生模式下评估了由 GPT-4 生成的 30 次对话,并将两种不同的提示方法进行比较:零 - shot 思维链和少 - shot 思维链,以识别基于五个标准的有效赞扬的具体组成部分,并通过与人类评分员的结果进行比较来评估 GPT-4 是否能够准确识别每个赞扬标准。研究发现,零 - shot 和少 - shot 思维链方法产生了相似的结果。 GPT-4 在识别导师提供具体和即时赞扬的情况下表现良好,但在识别导师提供真诚赞扬的能力方面表现不佳,尤其是在没有提供真诚导师赞扬语句的零 - shot 提示场景中。未来的研究将着重于增强提示工程,开发更普遍的导师评分表,并使用实际的导师对话来进行评估。