Jun, 2024

大型语言模型用于口吃语音的错断检测

TL;DR通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型(LLMs)中,我们将多标签异味检测任务作为一种语言建模问题进行了研究,并在包含英语和德语结巴语音的三个数据集上对系统进行了优化,以预测异味标签,实验结果表明我们的系统有效地结合声学和词法信息,在多标签结巴检测任务上取得了有竞争力的结果。