Sep, 2023

在第一千年拉丁文本中以句子级别检测性内容

TL;DR通过对句子级别的语义分类使用深度学习方法进行评估,以加速人文学科和语言学领域的语料库构建过程,我们介绍了一个包含各种类型的句子(医学,情色等)的新型语料库,跨度从公元前 300 年到公元 900 年。我们评估了不同的句子分类方法和不同的输入嵌入层,并表明所有方法都一致优于简单的基于标记的搜索。我们探索了个体方言和社会方言的元数据嵌入(世纪,作者,文体)的整合,但发现这会导致过拟合。我们的结果表明了这种方法的有效性,使用 HAN 实现了高精度和真正阳性率(TPR)分别为 70.60%和 86.33%。我们评估了数据集大小对模型性能(2013 个句子降为 420 个句子)的影响,并证明了即使没有 MLM,我们的模型仍然具有足够高的精度和 TPR,分别为 69%和 51%。基于这个结果,我们提供了对注意力机制的分析作为对人文学者的支持附加价值,以产生更多的数据。