Oct, 2023

T5 meets Tybalt: 使用大型语言模型进行早期现代英语戏剧中的作者归属

TL;DR使用大型语言模型在文体学中研究作者鉴定,尤其是早期英国剧作,发现既有令人期待的结果,也存在令人担忧的结果;LLMs 能够准确预测作者身份,即使是短小的片段,但也容易将文本错误地归属给特定作者。通过精调 t5-large 模型,在归因小片段时表现优于所有测试的基线模型,包括逻辑回归、带线性内核的 SVM 和余弦差等方法。然而,我们观察到模型预训练数据中特定作者的存在会对预测结果产生难以评估的影响。