基于上下文 BERT 调整的阅读理解自动评分

May, 2022

基于上下文 BERT 调整的阅读理解自动评分

Automated Scoring for Reading Comprehension via In-context BERT Tuning

Nigel Fernandez, Aritra Ghosh, Naiming Liu, Zichao Wang, Benoît Choffin...

TL;DR本文介绍了一种利用在场 BERT 调整的方法来解决在多问题共享阅读材料的阅读理解测试中的自动评分问题，并证明了这种方法的有效性。

Abstract

automated scoring of open-ended student responses has the potential to significantly reduce human grader effort. Recent advances in automated scoring often leverage textual representations based on pre-trained

automated scoring language models reading comprehension bert fine-tuning naep

发现论文，激发创造

基于上下文元学习的自动短数学答案评分

本文研究了自动短答案评分问题，提出了一种新的基于 MathBERT 及上下文学习方法的框架，并在真实数据集上进行了评估，证明该框架对于之前未见过的数学问题的表现优于现有方法。

May, 2022

ChatGPT 自动评分的微调

本研究通过在科学教育中使用示例评估任务，突显了精调 ChatGPT（GPT-3.5）自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比，GPT-3.5 在自动评分准确性上表现出显著提高，并发布了细调模型以供公众使用和社区参与。

Oct, 2023

BERT 在自动化论文评分中的应用：多尺度论文表示的联合学习

本论文介绍了一种可联合学习的针对 BERT 的多尺度文章表示法，并且采用了多种损失函数和跨领域文章的迁移学习，实验结果表明我们的方法在 ASAP 任务中取得了几乎所有深度学习模型中最先进的结果，并且该多尺度文章表示法在 CommonLit 可读性奖数据集上也具有良好的一般性，这表明本文提出的新型文本表示法可能是长文本任务的一种新而有效的选择。

May, 2022

G-SciEdBERT：一个面向德语科学评估任务的情境化语言模型

为了提高德语科学教育作文自动评分准确性，本研究开发了一种针对德语科学教育领域评分的语境化德语科学教育 BERT (G-SciEdBERT)，经与 G-BERT 进行性能比较，发现 G-SciEdBERT 相较于 G-BERT 在评分准确性上有显著提高，并在教育人工智能领域做出了重要贡献。

Feb, 2024

BERTTune: 使用 BERTScore 微调神经机器翻译

本文提出使用基于 BERTScore 评估指标的新型训练目标对神经机器翻译模型进行微调，以克服在训练过程中出现的过拟合偏见问题；作者提出三种生成软预测的方法，可使网络保持端到端的完全可微性，实验表明在四种不同的语言对上，微调目前具有一个强基线模型的 BLEU 分数提高了 0.58pp（3.28%），BERTScore 得分提高了 0.76pp（0.98%）。

Jun, 2021

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Sep, 2023

使用 BERT 评估文本生成

BERTScore 是一种针对文本生成的自动评估指标，利用上下文嵌入计算 token 的相似性，能够更好地与人类判断相关，并提供比现有度量更强的模型选择性能。

Apr, 2019

基于 Transformer 模型的自动化论文评分数据增强

本文研究使用 Transformer 模型与数据增强技术解决自动评分的问题，通过实验证明其有效性。

Oct, 2022

简单而有效的多段阅读理解

该论文旨在将神经段落级问题回答模型适应于以整个文档作为输入的情况，通过使用共享标准化训练目标，从多个段落中选择样本并鼓励模型产生全局正确的输出，该方法结合最先进的文档 QA 数据模型进行训练，实验证明了其在多个文档 QA 数据集上具有强大的性能表现，只需训练模型即可实现从 56.7 F1 到 71.3 F1 的大幅提高。

Oct, 2017

上下文至关重要：一种针对科学教育预训练语言模型的策略

本研究旨在提高科学教育中学生答案自动评分的性能。使用科学教育数据预训练特定领域的语言模型可以提高性能，并在将来自动化科学教育任务方面具有潜在的普适性。

Jan, 2023