利用大型语言模型研究自动评分和反馈

May, 2024

利用大型语言模型研究自动评分和反馈

Investigating Automatic Scoring and Feedback using Large Language Models

Gloria Ashiya Katuka, Alexander Gain, Yen-Yun Yu

TL;DR使用参数高效微调（PEFT）方法中的量化模型，通过细调大型语言模型（LLMs）自动为短答案和论文分配连续数值评分以及生成相关反馈，达到高准确性且成本和延迟相对较低。

Abstract

automatic grading and feedback have been long studied using traditional machine learning and deep learning techniques using language models. With the recent accessibility to high performing large language models (llms

automatic grading feedback generation parameter efficient fine-tuning llms quantized models

发现论文，激发创造

LLaMA-Reviewer：通过参数高效微调推进大型语言模型在代码审核自动化中的应用（实践经验报告）

LLaMA-Reviewer 是一个创新框架，利用了 LLaMA（一种流行的大型语言模型）在代码审查领域的能力。通过使用参数高效的微调方法，即使使用了 6.7B 参数的最小 LLaMA 基础模型和有限的微调时期，LLaMA-Reviewer 也能达到现有的面向代码审查的模型的性能。

Aug, 2023

提升大型语言模型性能以更准确地回答问题和提取信息

通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型，利用金融数据集和检索增强生成技术 (RAG)，证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。

Jan, 2024

LoRA Land: 310 微调 LLM 模型媲美 GPT-4 的技术报告

LoRA 是一种使用较少参数和内存的训练方法，研究表明，在低秩适配器的支持下，LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点；此外，他们开发了 LoRAX 多模型推理服务器，支持多个 LoRA fine-tuned 模型在单个 GPU 上运行，以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。

Apr, 2024

STAR：基于动态主动学习的约束式纵横比用于大型语言模型的高效微调

通过结合基于不确定性的主动学习和 LoRA，本论文提出了一种新的方法，动态度量不确定性缺口且在 LoRA 训练中引入正则化方法，这种方法在三个复杂推理任务上优于现有的基线模型。

Mar, 2024

从自动化到增强：大语言模型提升作文评分领域

研究调查了大型语言模型（LLMs），特别是 GPT-4 和经过精细调整的 GPT-3.5 作为自动作文评分（AES）系统的工具的有效性。实验结果显示 LLM-based AES 系统具有卓越的准确性、一致性、泛化能力和可解释性，并超越传统评分模型，同时也提高人工评分员的表现。

Jan, 2024

构建可靠流畅的大型语言模型：在问答系统中引入反馈学习循环

为了解决大型语言模型在引文、正确性和流畅度方面存在的问题，本研究通过构建数据集、引入自动化反馈机制和反馈学习循环，成功提高了 ChatGPT 的引文和流畅度指标，并保持高水平的正确性。

Sep, 2023

通过强化学习提高自动生成反馈的有效性

基于大语言模型的自动生成反馈在智能辅导系统和在线学习平台中具有潜力来提高许多学生的学习效果，本文针对自动生成和评估反馈的问题，提出了数学反馈评估标准和反馈生成框架，通过强化学习优化反馈的正确性和一致性，并通过案例研究定性分析了生成和评估系统。

Mar, 2024

MoELoRA: 基于对比学习引导的专家混合模型在大型语言模型的参数高效微调中的应用

利用对比学习以鼓励专家学习不同特征的方式，我们介绍了一种新的参数效率微调方法 MoELoRA，它在数学推理和常识推理基准测试中表现显著优于 LoRA 和 GPT-3.5。

Feb, 2024

基于 LLM 的短文本答案自动评分方法探究

通过评估大型语言模型在自动评分方面的可行性，并强调大型语言模型如何支持教育工作者验证评分程序，研究表明，虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角，但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作，需要人工监督。

Sep, 2023

FRACTAL：基于文本标签的细粒度评分

我们介绍了一种将响应级别标签细分为句子级别（伪）标签的方法，该方法利用多实例学习（MIL）和学习标签比例（LLP）技术以及先前信息训练专用模型进行句子级别评分，并利用模型预测对训练集进行伪标签，以进一步提高性能。我们在六个数据集和四个任务上进行了广泛的评估，结果表明在大多数任务中与多个基准方法相比，我们的方法性能有所提高。这项工作是第一个将响应级别反馈应用到句子级别评分技术，并利用句子级别先前信息进行全面评估的工作，同时进行了端到端微调评估，表明性能与基于精细人工标注标签训练的模型相当。

Apr, 2024