Jan, 2020

双层Transformer和辅助一致性建模,提升文本分段

TL;DR提出了一种新的监督式文本分段模型,它基于简单而明确的连贯性建模,并包括两个层次相连的 Transformer 网络的神经架构,它是一种多任务学习模型,并且通过将句子级分段目标与区分正确顺序的连贯性目标耦合来实现。该模型称为具有连贯性感知的文本分割(CATS),在一系列基准数据集上实现了最先进的分割性能,通过与跨语言词嵌入相结合,我们还展示了它在零-shot 语言转移方面的有效性:它可以成功地分割训练中未见过的语言中的文本。