短答数学题评分人偏好的建模与分析
本文介绍了一种人与深度学习模型相结合的方法,用于保证短文评分的质量和降低评分成本。通过引入可靠度估计方法来强制高质量的自动评分结果,同时把低可靠度的评分结果交给人类评分者来完成,实现了自动评分和人类评分者的协同作业。实验表明,该方法可以达到目标评分质量。
Jun, 2022
本文研究了自动短答案评分问题,提出了一种新的基于 MathBERT 及上下文学习方法的框架,并在真实数据集上进行了评估,证明该框架对于之前未见过的数学问题的表现优于现有方法。
May, 2022
本文研究了一种自动短答案评分(ASAG)模型,提供了分析性得分和最终的整体得分。使用基于大型语言模型(LLM)的一次提示和文本相似性评分模型,通过小型手动注释数据集进行领域适应性,获得了较高的准确性和加权 kappa 值,从而在公开 ASAG 数据集的子集上取得了重大进展。
May, 2023
本文介绍了一个名为 AutoSAS 的快速、可扩展和准确的自动短回答评分系统,该系统使用诸如词汇多样性、Word2Vec、提示和内容重叠等功能来实现其性能,并通过使用 Automated Student Assessment Prize 短回答评分(ASAP-SAS)公共数据集进行了评估,其表现与人类相当。
Dec, 2020
本文提出了一种使用回译和分数调整来增加论文 - 评分对数目的方法,并将其应用于 Automated Student Assessment Prize 数据集进行扩充,通过使用先前工作中的模型对增强数据的有效性进行了评估,并使用长短期记忆进行了性能评估,该模型广泛用于自动文章评分。使用增强数据来训练模型可以提高模型的性能。
Mar, 2022
本研究提出了一系列的数据增强操作,用于训练和测试自动评分模型以学习被先前研究忽视的特征和功能,同时在 Automated Student Assessment Prize 数据集中实现了最先进的性能。
Sep, 2023
本文介绍了一种基于统计模型的文本生成评估方法,利用自动化度量的优点和人工评级的精度,通过最佳组合的方式来改进文本生成评估的准确度,而且只需要使用人工评注的 50% 即可获得与 100% 人工评级相同的评估结果。
Jun, 2023
人工反馈被广泛应用于评估大型语言模型的性能,但目前尚不清楚这个单一的 “偏好” 得分到底捕捉到了生成输出的哪些特性。我们假设偏好得分是主观的,并且可能存在不可取的偏差。我们批判性地分析了人工反馈在训练和评估中的使用,以验证其是否充分捕捉到一系列关键错误标准。我们发现,虽然偏好得分的覆盖面较好,但却未充分表示重要方面,如事实性。此外,我们假设偏好得分和错误标注都可能受到混杂因素的影响,并利用针对指令的模型生成具有两个可能混杂维度(肯定性和复杂性)的输出。我们发现输出的肯定性会使事实错误的感知率产生偏倚,表明人工标注不是一个完全可靠的评估度量或训练目标。最后,我们提供初步证据,表明使用人工反馈作为训练目标会不成比例地增加模型输出的肯定性。我们鼓励未来的研究仔细考虑偏好得分是否与所期望的目标一致。
Sep, 2023
本研究使用由 10 million 問題 - 答案組成的大型多語言數據集,展示了對 Transformer 模型的微調可以應用於複雜數據集的自動評分,並討論了評分的信任和倫理問題。透過人工介入自動評分的過程,我們展示了如何提高自動化評分答案的準確性,並實現了相當於助教的準確性。同時,我們提出了一種有效的方法讓老師控制系統出現的錯誤類型,並且有效地驗證自動評分器在個別考試上的表現接近預期的表現。
Jan, 2022