Dr.学院:评估大型语言模型在教育中提问能力的基准
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023
本研究提出了一种方法,将大型语言模型(LLMs)的知识提炼为一个更小、更高效且准确的神经网络,以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用LLM的预测概率训练较小的学生模型,作为教师模型,通过专门设计的损失函数来学习LLM的输出概率,确保学生模型能够准确模仿教师模型的性能。通过对包括6,684个学生撰写的科学问题回答及其他数据集的测试,我们将性能与原始神经网络(NN)模型进行了比较,结果显示对于7T数据集,NN模型和提炼的学生模型的准确率与教师模型相当;然而,其他数据集显示NN模型的准确率显著较低(平均28%),然而我们的提炼模型仍然能够比NN模型获得更高12%的准确率。此外,学生模型的参数大小为0.1M至0.02M,相较于原始输出模型大小减小了100倍和10倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。
Dec, 2023
基于大型语言模型的教育系统研究,评估其在教育能力方面的潜力,并提出统一和专家混合两种方法构建下一代智能教育系统,同时探讨了挑战和未来发展方向。
Dec, 2023
这篇论文讨论了使用大型语言模型(LLMs)对开放文本短答案问题进行评分的实验,研究了不同组合的GPT版本和提示工程策略在标记真实学生答案时的性能表现,并发现GPT-4在这方面表现良好与人类级别接近。这一研究对于支持K-12教育中的低风险形成性评估任务具有重要意义。
May, 2024
利用大语言模型在现代教育领域创新的机会,通过研究提问型大语言模型、语法错误解释和人力资源面试评估,揭示了大语言模型在改变教育实践中的潜力和限制。
May, 2024
本研究探讨了大型语言模型(LLMs)在教育环境中自动生成问题的有效性,并比较了三种模型在无微调情况下从大学幻灯片文本中生成问题的能力。研究发现,GPT-3.5和Llama 2-Chat 13B在问题的清晰度和问答对应性方面略优于Flan T5 XXL,特别是GPT-3.5在根据输入答案定制问题方面表现突出。
Jul, 2024
该研究针对教育者在生成高质量教育问题时面临的挑战,提出了一种利用大型语言模型(LLMs)实现自动化生成教育问题的新方法。研究表明,采用适当的信息提示,LLMs能够生成符合不同认知水平的相关且高质量的问题,同时表现出LLMs在能力上的显著差异,并且发现自动评估无法与人工评估相媲美。
Aug, 2024
本研究探讨了大型语言模型(LLMs)在零-shot条件下识别没有正确答案的选择题的能力,这对教育评估质量至关重要。研究结果显示,LLMs在处理无正确答案问题时表现显著低于有正确答案的问题,Llama-3.1-405B在识别无效答案方面表现突出,提示LLMs在教育应用中需更重视批判性思维能力,以避免错误评估。
Aug, 2024
本研究探讨了大型语言模型(LLMs)在教育领域中自动问题生成和答案评估的转型潜力,填补了高效学习工具的空白。通过解析LLMs的工作机制以及创新的提示技术,研究展示了如何生成多样化和相关性强的问题来适应学习需求,同时实现了准确的答案评估和反馈,具有显著的教育提升潜力。
Oct, 2024