利用大型语言模型研究自动评分和反馈
LLaMA-Reviewer 是一个创新框架,利用了 LLaMA(一种流行的大型语言模型)在代码审查领域的能力。通过使用参数高效的微调方法,即使使用了 6.7B 参数的最小 LLaMA 基础模型和有限的微调时期,LLaMA-Reviewer 也能达到现有的面向代码审查的模型的性能。
Aug, 2023
通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型,利用金融数据集和检索增强生成技术 (RAG),证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。
Jan, 2024
LoRA 是一种使用较少参数和内存的训练方法,研究表明,在低秩适配器的支持下,LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点;此外,他们开发了 LoRAX 多模型推理服务器,支持多个 LoRA fine-tuned 模型在单个 GPU 上运行,以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。
Apr, 2024
通过结合基于不确定性的主动学习和 LoRA,本论文提出了一种新的方法,动态度量不确定性缺口且在 LoRA 训练中引入正则化方法,这种方法在三个复杂推理任务上优于现有的基线模型。
Mar, 2024
研究调查了大型语言模型(LLMs),特别是 GPT-4 和经过精细调整的 GPT-3.5 作为自动作文评分(AES)系统的工具的有效性。实验结果显示 LLM-based AES 系统具有卓越的准确性、一致性、泛化能力和可解释性,并超越传统评分模型,同时也提高人工评分员的表现。
Jan, 2024
为了解决大型语言模型在引文、正确性和流畅度方面存在的问题,本研究通过构建数据集、引入自动化反馈机制和反馈学习循环,成功提高了 ChatGPT 的引文和流畅度指标,并保持高水平的正确性。
Sep, 2023
基于大语言模型的自动生成反馈在智能辅导系统和在线学习平台中具有潜力来提高许多学生的学习效果,本文针对自动生成和评估反馈的问题,提出了数学反馈评估标准和反馈生成框架,通过强化学习优化反馈的正确性和一致性,并通过案例研究定性分析了生成和评估系统。
Mar, 2024
利用对比学习以鼓励专家学习不同特征的方式,我们介绍了一种新的参数效率微调方法 MoELoRA,它在数学推理和常识推理基准测试中表现显著优于 LoRA 和 GPT-3.5。
Feb, 2024
通过评估大型语言模型在自动评分方面的可行性,并强调大型语言模型如何支持教育工作者验证评分程序,研究表明,虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角,但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作,需要人工监督。
Sep, 2023
我们介绍了一种将响应级别标签细分为句子级别(伪)标签的方法,该方法利用多实例学习(MIL)和学习标签比例(LLP)技术以及先前信息训练专用模型进行句子级别评分,并利用模型预测对训练集进行伪标签,以进一步提高性能。我们在六个数据集和四个任务上进行了广泛的评估,结果表明在大多数任务中与多个基准方法相比,我们的方法性能有所提高。这项工作是第一个将响应级别反馈应用到句子级别评分技术,并利用句子级别先前信息进行全面评估的工作,同时进行了端到端微调评估,表明性能与基于精细人工标注标签训练的模型相当。
Apr, 2024