ACLFeb, 2024

解决西班牙语中的转录模糊问题:基于混合声学 - 词汇系统的标点恢复

TL;DR本研究提出了一种新颖的混合声学和词汇标点复原系统,用于西班牙语转录,通过模块化过程整合声学和词汇信号,实验结果表明该系统能够有效提高西班牙语问号和整体标点恢复的 F1 分数,并在公开和内部西班牙语对话数据集上与大型语言模型 (LLMs) 进行了基准比较,表明我们的方法在准确性、可靠性和延迟性方面具有优势。此外,我们还证明了自动语音识别 (ASR) 模块的词错误率 (WER) 也受益于我们提出的系统。