Jan, 2024

利用大型语言模型进行端到端的中文 ASR 和 NER

TL;DR通过将语音记号映射到与文本记号相同的特征空间,将语音模态整合到解码器型大型语言模型 (LLM) 中成为范式。本研究通过中文自动语音识别 (ASR) 和命名实体识别 (NER) 任务对 Whisper 编码器和 ChatGLM3 进行深入比较,评估它们不仅基于传统的 F1 评分,还基于 ASR-NER 错误的新颖细粒度分类。实验结果表明,与短上下文相比,使用编码器 - 解码器架构的性能优于仅解码器架构,而对于长上下文,仅解码器架构可以充分利用 LLM 的所有层,从而获益。我们使用 LLM 显著减少了实体遗漏错误,并改善了实体 ASR 准确率,与 Conformer 基准相比,我们在 AISHELL-NER 测试集上获得了 0.805 的最先进的 F1 评分,并通过 chain-of-thought (CoT) NER 首先推断出长形 ASR 转录,然后预测 NER 标签。