Apr, 2022

单标签和多标签文本分类:词袋、序列、图、层次结构,我们真正取得了多少进展?

TL;DR通过综合文献和自行实验,我们发现在单标签和多标签分类任务中,与精调的语言模型和 MLP 等标准机器学习方法相比,基于图的方法效果不如人意,甚至有时比基于词袋的 MLP 方法表现还要差,这进一步挑战了过去几年中新基于图方法的开发和它们在这一领域中的实际价值,并证实了预先训练的语言模型依然是文本分类中最先进的方法。因此,未来的文本分类研究需要仔细测试标准的机器学习算法如 MLP,以更好地评估其真正的科学进展。