Jan, 2024

ALMs:作者语言模型用于作者归属

TL;DR本文介绍了一种作者归属方法,即作者语言模型 (ALMs),它通过对一组候选作者的文本进行经验修正得到的调整语言模型的困惑度,从而识别问询文档的最有可能的作者。我们使用 CCAT50 数据集和 Blogs50 数据集对 ALMs 进行了基准测试,并发现 ALMs 在 Blogs50 上达到 83.6% 的宏平均准确率,超过所有其他方法,在 CCAT50 上达到 74.9% 的宏平均准确率,与最好方法的性能相当。此外,我们还进行了关于短文本的删除测试,结果发现为了达到 70% 的宏平均准确率,ALMs 需要在 Blogs50 上有 40 个词元,在 CCAT50 上有 400 个词元,而为了达到 60% 的宏平均准确率,ALMs 需要在 Blogs50 上有 20 个词元,在 CCAT50 上有 70 个词元。