关于形容词和副词的对抗性使用:自动短答案评分中的作弊行为
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过crowdsourcing实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021
本研究使用由10 million 問題-答案組成的大型多語言數據集,展示了對Transformer模型的微調可以應用於複雜數據集的自動評分,並討論了評分的信任和倫理問題。透過人工介入自動評分的過程,我們展示了如何提高自動化評分答案的準確性,並實現了相當於助教的準確性。同時,我們提出了一種有效的方法讓老師控制系統出現的錯誤類型,並且有效地驗證自動評分器在個別考試上的表現接近預期的表現。
Jan, 2022
本文研究了自动短答案评分问题,提出了一种新的基于 MathBERT 及上下文学习方法的框架,并在真实数据集上进行了评估,证明该框架对于之前未见过的数学问题的表现优于现有方法。
May, 2022
通过评估大型语言模型在自动评分方面的可行性,并强调大型语言模型如何支持教育工作者验证评分程序,研究表明,虽然“开箱即用”的大型语言模型提供了宝贵的工具来提供补充视角,但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作,需要人工监督。
Sep, 2023
通过数据科学技术(包括机器学习、自然语言处理和教育数据分析),利用自然语言处理的BERT相关技术改进针对英语学习者(ELLs)的自动化反馈工具,以提高ELLs的写作能力评估。
Jan, 2024
在教育领域中,大型语言模型(LLMs)的快速发展给当前的剽窃检测工具带来了挑战,本文通过生成拟保持原问题的结构和难度但无法由LLMs解决的对抗性示例,来探索确保公平评估的新范式,通过在数学应用问题领域利用抽象语法树生成对抗性实例,改变问题中的数值使LLMs产生错误的答案,定量和定性实验证明我们的方法显著降低了LLMs的数学解题能力,并对LLMs共同的漏洞进行了识别,提出了一种高效率攻击高成本模型的方法,此外,我们还通过自动分析数学问题的失败原因,指导后续对LLMs数学能力的研究。
Feb, 2024
通过对学生反馈进行深入分析并提供学生视觉亮点,本文引入了一种名为“Marking”的新型评分任务,以增强自动评分系统,与传统系统不同,通过将学生反应进行正确、错误或无关的分类,并检测与标准答案的遗漏,我们将之作为自然语言推理任务的扩展,通过训练语言模型识别学生响应的蕴含、矛盾和中性,同时识别标准答案的遗漏,我们使用BERT和RoBERTa等变压器模型,并结合e-SNLI数据集进行智能训练,在基准结果中展示了“Marking”任务的复杂性,为未来的研究设定了明确的发展方向,我们的工作不仅为AI驱动的教育评估工具的研究开辟了新的途径,还为AI教育社区提供了有价值的基准,以便今后的改进。
Apr, 2024
通过基于大规模的大学课程考试数据训练的神经网络模型,在历史考试数据上的实验证明了自动化简短回答评分系统的高准确性和一致性,这为减少人为主观性、改善评分一致性以提高公正性提供了有前途的解决方案。
May, 2024
本研究解决了自动作文评分(AES)系统因数据代表性不足而导致的评分偏见和鲁棒性不足的问题。提出了一种模型无关的短语级对抗方法,通过生成对抗性作文集来增强AES模型的表现。实验结果表明,该方法在面对对抗性样本时显著提高了AES模型的性能。
Sep, 2024