Aug, 2023

GPT-4在评估文本的一致性方面是否可靠?

TL;DR本研究探讨了OpenAI的GPT-4在多次迭代、时间跨度和风格变化中生成的反馈评分的一致性。通过对高等教育领域宏观经济学任务的回答进行评分,进行统计分析以了解评分的一致性、不同迭代之间的相关性以及内容和风格之间的相关性。结果显示,不同时间跨度的ICC得分介于0.94到0.99之间,表明GPT-4能够在有明确提示的情况下生成一致的评分。内容和风格评分之间的相关性为0.87。使用不恰当的风格时,平均内容评分保持不变,而风格评分下降,这表明大型语言模型在评估过程中有效区分了这两个标准。本研究还介绍和解释了所使用的提示。需要进一步研究以评估AI模型在各种应用场景中的稳健性和可靠性。