Aug, 2020

面向对话语音标点预测的多模态半监督学习框架

TL;DR本研究探索一种多模态半监督学习方法,通过学习大量无标签的音频和文本数据来预测标点符号。实验结果表明,使用注意力机制的多模态融合相对于使用强制对齐的多模态融合可以使基线模型分别在参考转录和自动语音识别输出上达到约 6-9%和 3-4%的绝对改进(F1 分数),数据增广也可以使模型对 ASR 错误更加鲁棒。