Oct, 2024

基于心理测量学的新方法开发大型语言模型的职业能力基准

TL;DR本研究解决了当前大型语言模型(LLM)评估方法的有效性和可靠性不足的问题。通过采用以证据为中心的设计(ECD)方法论,文章提出了一种基于心理测量学原理的全新基准开发方法,并强调现有基准的局限性。研究结果表明,尽管生成式人工智能工具在教育中展现出巨大潜力,但在需要更深层次认知参与的任务中,其作为自主教师助手的可靠性仍然有限。