ACLJun, 2019

欧盟立法上的大规模多标签文本分类

TL;DR该研究在法律领域考虑了大规模多标签文本分类,提出了一个适用于 LMTC、few - 和 zero-shot 学习的新数据集 EURLEX,共包含 57k 个法律文档,注释有~4.3k 个 EUROVOC 标签;实验表明,具有标签注意力的 BIGRU 模型优于当前其他最先进的模型;领域特定的 WORD2VEC 和上下文敏感的 ELMO 嵌入进一步提高了性能;研究人员还发现,只考虑文档中的特定区域就足够了,这使得我们可以规避 BERT 的最大文本长度限制,并使用 fine-tune BERT 在所有情况下获得了最佳结果。