Apr, 2023

基于词汇表限制的下游任务导向神经分词器优化作为后处理

TL;DR本文提出了一种优化已训练后的下游模型性能的分词方法,该方法通过限制词汇量并训练一个生成相应分词结果的分词器,达到更低的下游模型损失值,比现有方法在各项任务中都表现更佳。其中提出的基于 BiLSTM 的分词器能够比现有非神经网络分词方法更好地捕捉上下文信息。