EMNLPOct, 2018

语言建模用于代码交替:评估、整合单语数据和判别式训练

TL;DR本文研究语言建模在代表代码切换语言的语境下在自动语音识别(ASR)中所存在的难题,针对三个难点分别提出解决方案:如何从缺乏大规模训练数据、ASR 系统中与语言建模相关的性能测试的实现方法以及基于生成式模型所存在的缺陷,我们构建了一个独立于 ASR 系统和词汇选择的评估数据集和评估方式,并采用一种判别式训练方法,证明其比生成式更加有效。最后,我们探索了多种训练协议,并验证了使用大量单语数据随后加上小量的代码切换数据来进行精调训练的可行性。