大型语言模型自动生成与评估阅读理解测试题

COLINGApr, 2024

大型语言模型自动生成与评估阅读理解测试题

Automatic Generation and Evaluation of Reading Comprehension Test Items with Large Language Models

Andreas Säuberli, Simon Clematide

TL;DR使用大型语言模型生成和评估阅读理解测试题目是一个有前途的方法，特别适用于没有足够可用数据的语言。

Abstract

reading comprehension tests are used in a variety of applications, reaching from education to assessing the comprehensibility of simplified texts. However, creating such tests manually and ensuring their quality is difficult and time-consuming. In this paper, we explore how

reading comprehension tests large language models multiple-choice evaluation zero-shot generation

发现论文，激发创造

LLMs 能评分短答阅读理解题：适用于低收入国家的基础识字能力评估

利用生成型大型语言模型（即 GPT-4）有望可靠地评估短答阅读理解问题，并通过使用新的数据集和自动评分过程提供了改进基础扫盲教育的可能性。

Oct, 2023

LLM 能增强低资源阅读理解数据集吗？机遇和挑战

本文探讨了使用 GPT-4 作为人工标注的替代品来提供低资源阅读理解任务的性能，通过精细调节后的性能和标注成本的对比，这是对 LLMs 作为合成数据增广器用于 QA 系统的第一次分析，强调了这一独特的机遇和挑战，并提供了低资源数据集的增广版本，为生成数据集的评估提供了进一步的基准。

Sep, 2023

运用语言模型模拟生成与评估 K-12 学生的测试：基于句子阅读效率的案例研究

通过对大规模语言模型进行微调，以模拟先前学生对未见过的测试项目的响应，生成具有高质量的平行测试，并且通过对成千上万名 K-12 学生进行评估，证明生成的测试与人工专家编写的标准测试的难度和可靠性高度相关。

Oct, 2023

大型语言模型是否能胜任？一项实证研究评估 LLM 评分 K-12 教育中的简答题能力

这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现，并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。

May, 2024

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现 LLM 评估结果与人类专家的评估结果保持一致。

May, 2023

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023

基于 LLM 的短文本答案自动评分方法探究

通过评估大型语言模型在自动评分方面的可行性，并强调大型语言模型如何支持教育工作者验证评分程序，研究表明，虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角，但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作，需要人工监督。

Sep, 2023

用于系统评审筛选自动化的零样本生成式大型语言模型

使用零 - shot 大型语言模型～(LLMs) 进行自动筛选的效果研究显示，指导微调在筛选中发挥重要作用，校准使 LLMs 实现了有针对性的回收，并且将两者与零 - shot 模型集成结合，与最先进的方法相比节省了大量筛选时间。

Jan, 2024

使用 LLMs 生成具有不同可读性水平的教育材料

本研究介绍了分级文本生成任务，旨在将教育材料重写为特定可读性水平同时保持意义不变。通过零 - shot 和少量样本提示，我们评估了 GPT-3.5、LLaMA-2 70B 和 Mixtral 8x7B 在不同可读性水平上生成内容的能力。对 100 份处理过的教育材料进行评估，结果显示少量样本提示显著提高了可读性操作和信息保留的性能。LLaMA-2 70B 在实现所需难度范围方面表现更好，而 GPT-3.5 保持了原始意义。然而，手动检查还揭示出了诸如引入错误信息和不一致的编辑分布等问题。这些发现强调了进一步研究以确保生成的教育内容的质量的需求。

Jun, 2024