大型语言模型自动生成与评估阅读理解测试题
利用生成型大型语言模型(即 GPT-4)有望可靠地评估短答阅读理解问题,并通过使用新的数据集和自动评分过程提供了改进基础扫盲教育的可能性。
Oct, 2023
本文探讨了使用 GPT-4 作为人工标注的替代品来提供低资源阅读理解任务的性能,通过精细调节后的性能和标注成本的对比,这是对 LLMs 作为合成数据增广器用于 QA 系统的第一次分析,强调了这一独特的机遇和挑战,并提供了低资源数据集的增广版本,为生成数据集的评估提供了进一步的基准。
Sep, 2023
通过对大规模语言模型进行微调,以模拟先前学生对未见过的测试项目的响应,生成具有高质量的平行测试,并且通过对成千上万名 K-12 学生进行评估,证明生成的测试与人工专家编写的标准测试的难度和可靠性高度相关。
Oct, 2023
这篇论文讨论了使用大型语言模型(LLMs)对开放文本短答案问题进行评分的实验,研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现,并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。
May, 2024
通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估,本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功,并揭示了 LLM 在特定领域应用中存在的问题和短板。
Aug, 2023
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。
May, 2023
本研究评估了大型语言模型(LLMs)GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力,并应用自然语言处理的方法,通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标,从而展示了 LLMs 在洞察力提取方面的巨大潜力。
Sep, 2023
通过评估大型语言模型在自动评分方面的可行性,并强调大型语言模型如何支持教育工作者验证评分程序,研究表明,虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角,但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作,需要人工监督。
Sep, 2023
使用零 - shot 大型语言模型~(LLMs) 进行自动筛选的效果研究显示,指导微调在筛选中发挥重要作用,校准使 LLMs 实现了有针对性的回收,并且将两者与零 - shot 模型集成结合,与最先进的方法相比节省了大量筛选时间。
Jan, 2024
本研究介绍了分级文本生成任务,旨在将教育材料重写为特定可读性水平同时保持意义不变。通过零 - shot 和少量样本提示,我们评估了 GPT-3.5、LLaMA-2 70B 和 Mixtral 8x7B 在不同可读性水平上生成内容的能力。对 100 份处理过的教育材料进行评估,结果显示少量样本提示显著提高了可读性操作和信息保留的性能。LLaMA-2 70B 在实现所需难度范围方面表现更好,而 GPT-3.5 保持了原始意义。然而,手动检查还揭示出了诸如引入错误信息和不一致的编辑分布等问题。这些发现强调了进一步研究以确保生成的教育内容的质量的需求。
Jun, 2024