EMNLPOct, 2021

利用外部数据提高语音抄本的标点恢复能力

TL;DR本文研究了针对嘈杂文本(如电话对话场景)的标点恢复问题,提出了一种基于 n-gram 语言模型的数据采样技术来采样更多类似于我们的领域数据的训练数据,并提出了一种基于 BERT 模型的两阶段微调方法,大量实验表明该方法的 F1 得分提高了 1.12%,优于基线模型。