Mar, 2024

通过迁移学习使用 ULMFiT 对孟加拉文学进行作者归属

TL;DR提出了一种使用 AWD-LSTM 架构和有效的迁移学习方法来解决孟加拉文学领域的作者归属问题,通过分析不同的标记化方法,并介绍了一个包含 16966 份样本文本和 13.4 + 百万词汇的公开孟加拉作者归属数据集(BAAD16),此外还释放了六个预训练语言模型的变体。通过对 BAAD16 数据集及其他公开数据集的评估,实验证明所提出的模型优于目前的最先进模型,在 BAAD16 数据集上达到 99.8% 的准确率,而且在作者数量增加时,系统的可伸缩性表现更好,性能依然稳定。