使用 RiceChem 数据集进行自动长篇答案评分

Apr, 2024

使用 RiceChem 数据集进行自动长篇答案评分

Automated Long Answer Grading with RiceChem Dataset

Shashank Sonkar, Kangqi Ni, Lesa Tran Lu, Kristi Kincaid, John S. Hutchinson...

TL;DR我们介绍了一项新的研究领域，教育自然语言处理中的自动长答案评分 (ALAG)。通过将其作为含评分标准的蕴涵问题来表述 ALAG，我们展示了基于评分标准的方法在捕捉学生回答细微差别方面的优势。我们还在冷启动情景下研究了模型的性能，并将开源大型语言模型与 GPT 模型进行了比较，突显了 ALAG 相对于短答案评分的复杂性。

Abstract

We introduce a new area of study in the field of educational Natural Language Processing: automated long answer grading (alag). Distinguishing itself from Automated Short Answer Grading (ASAG) and Automated Essay

automated long answer grading alag ricechem dataset rubric-based formulation large language models

发现论文，激发创造

基于多路注意力网络的自动短答案评分

本文提出了一种自动短答案评分学习框架，该框架针对 K-12 教育中的自由文本问题，旨在自动提取语言信息并在自由文本学生答案与参考答案之间准确建模语义关系，实验结果表明在各项评估指标上均高于最新算法模型。

Sep, 2019

基于 LLM 的短文本答案自动评分方法探究

通过评估大型语言模型在自动评分方面的可行性，并强调大型语言模型如何支持教育工作者验证评分程序，研究表明，虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角，但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作，需要人工监督。

Sep, 2023

自动从长答案生成问题的研究

提出了一种新的评估基准用于评估现有的自动生成问题系统的性能，特别是长文本答案下的自动生成问题系统。研究表明，随着答案长度的增加，现有 AQG 方法的性能显著下降，变压器模型在长答案方面的表现优于其他 AQG 方法，但仍存在性能下降的情况，这表明长答案 QA 是未来研究的具有挑战性的基准任务。

Apr, 2020

深度学习自动短答案评分综述：从词嵌入到变形金刚

本研究综述了最近自然语言处理和机器学习方面的进展，特别是着重于自动化简短答案评分的深度学习方法。最佳表现是通过结合精心设计的手工特征和变压器结构提供的语义描述来实现的。

Mar, 2022

使用任务特定的考试生成自动评估检索增强的语言模型

我们提出了一种新的方法来衡量检索增强的大型语言模型（RAG）的任务特定准确性。通过对与任务相关的文档语料库基于多项选择问题评分的自动生成合成考试来进行评估。我们的方法是自动化、成本高效、可解释和稳健的选择 RAG 系统的最佳组件的策略。我们利用项目反应理论（IRT）估计考试的质量和信息量，以提高任务特定准确性。我们在四个基于 Arxiv 摘要、StackExchange 问题、AWS DevOps 故障排除指南和 SEC 文件的新型开放问答任务上演示了我们的方法。此外，我们的实验揭示了影响 RAG 性能的更一般的因素，如大小、检索机制、提示和微调。最重要的是，我们的研究结果表明，选择正确的检索算法通常比仅仅使用更大的语言模型能够带来更大的性能收益。

May, 2024

利用单次提示和文本相似性评分模型进行简答评分

本文研究了一种自动短答案评分（ASAG）模型，提供了分析性得分和最终的整体得分。使用基于大型语言模型（LLM）的一次提示和文本相似性评分模型，通过小型手动注释数据集进行领域适应性，获得了较高的准确性和加权 kappa 值，从而在公开 ASAG 数据集的子集上取得了重大进展。

May, 2023

评估检索增强生成模型的答案质量：强大的 LLM 足够了

我们提出了一种全面评估检索增强生成（RAG）应用中答案质量的方法，使用 vRAG-Eval，这是一种新的评分系统，旨在评估正确性、完整性和诚实性。我们进一步将前述质量方面的评分转化为一个二进制分数，表示接受或拒绝的决策，反映了常用于聊天应用的直观 “赞” 或 “踩” 的手势。我们将 vRAG-Eval 应用于两个大型语言模型（LLM），评估由基本 RAG 应用生成的答案的质量。我们将这些评估与人类专家判断进行比较，并发现 GPT-4 的评估结果与人类专家的评判具有显著一致性，在接受或拒绝的决策上达成 83% 的一致。这项研究突出了 LLM 在封闭领域、封闭式问题设置中作为可靠评估者的潜力，特别是当人工评估需要大量资源时。

Jun, 2024

通过自学使大型语言模型能够建立知识检索索引器

该研究提出了一种名为 PG-RAG 的预检索框架，使用大量阅读材料和结构化的语境记录来构建伪图数据库，该框架在单文档和多文档的问题回答任务中表现出明显的改进，具有高性能的检索和生成能力。

May, 2024

检索增强生成系统：自动数据集创建、评估和布尔代理设置

检索增强生成（RAG）系统在通过领域特定和时间敏感数据增强大型语言模型（LLM）输出方面非常受欢迎。本文提出了一种严格的数据集创建和评估工作流程，从而定量比较了不同的 RAG 策略，用于布尔代理 RAG 设置的开发和评估。我们在线发布了我们的代码和生成的数据集。

Feb, 2024

超越人类主观性与错误：一种新的人工智能评分系统

通过基于大规模的大学课程考试数据训练的神经网络模型，在历史考试数据上的实验证明了自动化简短回答评分系统的高准确性和一致性，这为减少人为主观性、改善评分一致性以提高公正性提供了有前途的解决方案。

May, 2024