Sep, 2024

针对口语对话系统的预测语音识别与话语结束检测

TL;DR本文针对现有口语对话系统响应时间过长的问题,提出了一种新颖的预测即将到来的单词和估计话语结束时间(EOU)的方法。通过引入编码器-解码器ASR系统的训练策略,模型能够在话语中段进行未来词汇预测,并有效提升ASR性能,实验证明该方法能够在实际EOU前300ms进行准确预测,具有重要潜在影响。