Jan, 2022
短文、多语言、多类型答案的可信自动评分
Towards Trustworthy AutoGrading of Short, Multi-lingual, Multi-type
Answers
TL;DR本研究使用由10 million 問題-答案組成的大型多語言數據集,展示了對Transformer模型的微調可以應用於複雜數據集的自動評分,並討論了評分的信任和倫理問題。透過人工介入自動評分的過程,我們展示了如何提高自動化評分答案的準確性,並實現了相當於助教的準確性。同時,我們提出了一種有效的方法讓老師控制系統出現的錯誤類型,並且有效地驗證自動評分器在個別考試上的表現接近預期的表現。