利用大型语言模型进行生成式语音识别误差校正
我们提出了一种将指导训练的大型语言模型 (LLM) 与端到端自动语音识别 (ASR) 相结合的新方法。该方法利用 LLMs 的零 - shot 能力来提取语言信息,从而改善 ASR 性能,其中包括纠正 ASR 假设中的语法错误,并利用嵌入的语言知识进行端到端 ASR。实验证明,所提出的集成方法能够取得良好的性能改进,并且我们的方法在 LLM 基于重排序时得到了很大的好处。
Sep, 2023
本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法,这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率(WER),特别是,深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。
Jun, 2023
研究表明,在使用大规模语言模型的情况下,对于长篇 ASR 测试集,可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。
Jun, 2023
该研究探讨了大型语言模型(LLMs)中的上下文偏置,其中在二次通过重新评分期间,提供了额外的上下文信息以提升自动语音识别(ASR)性能。研究提议在重新评分期间利用提示方式对 LLM 进行偏置,其中包括偏置列表和少量示例,以作为计算假设得分时的额外信息。除了少量示例学习,该研究还提出了 LLM 的多任务训练,以预测实体类别和下一个标记。为了改进上下文偏置的效率并避免超过 LLM 的最大序列长度,该研究提出了动态提示,其中利用类别标签预测选择最可能的类别,并仅将该类别中的实体用作下一个标记预测的上下文。在内部通话、消息和听写数据集以及 SLUE-Voxpopuli 数据集上进行了字错误率(WER)评估。结果表明,偏置列表和少量示例相对于第一次通过 ASR 可以分别实现 17.8% 和 9.6% 的改善,而多任务训练和动态提示则可以分别实现 20.0% 和 11.3% 的相对 WER 改善。
Sep, 2023
本研究将大型语言模型(如 GPT-2, BERT, RoBERTa)应用于 ASR N-best rescoring,并将其与竞争性高、接近最新技术水平的 ASR 系统相结合。通过实验发现大型语言模型的双向性、预训练、领域内微调和上下文增强对 ASR 性能有显著改善作用,而词汇分析揭示了这些组件如何对 ASR 性能贡献。
Apr, 2022
本文旨在探讨将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中以提高转录准确性的潜力,并通过实验表明在当前阶段,使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。
Jul, 2023
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在 Multilingual LibriSpeech 上的实验证明,即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时,多语种 ASR 仍然可行,从而为 LLMs 在长篇音频中进行操作开辟了可能性。
Jul, 2023
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练 LLM 的上下文化语音识别能力并显著提高性能。
Sep, 2023