基于上下文 BERT 调整的阅读理解自动评分
本文研究了自动短答案评分问题,提出了一种新的基于 MathBERT 及上下文学习方法的框架,并在真实数据集上进行了评估,证明该框架对于之前未见过的数学问题的表现优于现有方法。
May, 2022
本研究通过在科学教育中使用示例评估任务,突显了精调 ChatGPT(GPT-3.5)自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比,GPT-3.5 在自动评分准确性上表现出显著提高,并发布了细调模型以供公众使用和社区参与。
Oct, 2023
本论文介绍了一种可联合学习的针对 BERT 的多尺度文章表示法,并且采用了多种损失函数和跨领域文章的迁移学习,实验结果表明我们的方法在 ASAP 任务中取得了几乎所有深度学习模型中最先进的结果,并且该多尺度文章表示法在 CommonLit 可读性奖数据集上也具有良好的一般性,这表明本文提出的新型文本表示法可能是长文本任务的一种新而有效的选择。
May, 2022
为了提高德语科学教育作文自动评分准确性,本研究开发了一种针对德语科学教育领域评分的语境化德语科学教育 BERT (G-SciEdBERT),经与 G-BERT 进行性能比较,发现 G-SciEdBERT 相较于 G-BERT 在评分准确性上有显著提高,并在教育人工智能领域做出了重要贡献。
Feb, 2024
本文提出使用基于 BERTScore 评估指标的新型训练目标对神经机器翻译模型进行微调,以克服在训练过程中出现的过拟合偏见问题;作者提出三种生成软预测的方法,可使网络保持端到端的完全可微性,实验表明在四种不同的语言对上,微调目前具有一个强基线模型的 BLEU 分数提高了 0.58pp(3.28%),BERTScore 得分提高了 0.76pp(0.98%)。
Jun, 2021
基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器(GPT)的文本评估模型之间的差异,发现转换器预训练语言模型(PLM)相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量,但相对于人工创作的文档,GPT 生成的文本评分平均要高出 10-15%。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。
Sep, 2023
BERTScore 是一种针对文本生成的自动评估指标,利用上下文嵌入计算 token 的相似性,能够更好地与人类判断相关,并提供比现有度量更强的模型选择性能。
Apr, 2019
该论文旨在将神经段落级问题回答模型适应于以整个文档作为输入的情况,通过使用共享标准化训练目标,从多个段落中选择样本并鼓励模型产生全局正确的输出,该方法结合最先进的文档 QA 数据模型进行训练,实验证明了其在多个文档 QA 数据集上具有强大的性能表现,只需训练模型即可实现从 56.7 F1 到 71.3 F1 的大幅提高。
Oct, 2017
本研究旨在提高科学教育中学生答案自动评分的性能。使用科学教育数据预训练特定领域的语言模型可以提高性能,并在将来自动化科学教育任务方面具有潜在的普适性。
Jan, 2023