Jul, 2024

利用LLM-回答者进行项目评估:一项心理测量分析

TL;DR利用六种不同的LLMs(GPT-3.5、GPT-4、Llama 2、Llama 3、Gemini-Pro和Cohere Command R Plus)和它们的组合,通过采样方法产生具有类似于人类答案的心理测量特性的回答,以探索教育测量的有效性,结果显示,有些LLMs在大学代数方面的能力与大学生相当或更高,而LLM-受试者校准的项目参数与其人类校准的对应物具有很高的相关性,并且与人类子集的参数非常接近,多种增强策略被评估,重新采样方法被证明效果最好,将Spearman相关性从0.89(仅使用人类数据)提高到0.93(增强后的人类数据)。