基于大型语音-文本基础模型的语音识别重评分

Sep, 2024

基于大型语音-文本基础模型的语音识别重评分

Speech Recognition Rescoring with Large Speech-Text Foundation Models

Prashanth Gurunath Shivakumar, Jari Kolehmainen, Aditya Gourav, Yi Gu, Ankur Gandhe...

TL;DR本研究解决了自动语音识别（ASR）系统因可用转录语音数据有限而导致的性能瓶颈。提出了利用多模态大型语言模型进行ASR重评分的创新技术，并探索了判别训练来提升重评分性能。实验表明，通过语音-文本基础模型的跨模态知识转移，重评分效果显著提升，相较Whisper大型ASR和仅基于文本的LLM分别提高了20%和15%的相对性能。

Abstract

Large Language Models (LLM) have demonstrated the ability to understand human language by leveraging large amount of text data. Automatic Speech Recognition (ASR) systems are often limited by available transcribe

发现论文，激发创造

大规模语言模型重评分对竞争性ASR系统的影响与分析

本研究将大型语言模型（如GPT-2, BERT, RoBERTa）应用于ASR N-best rescoring，并将其与竞争性高、接近最新技术水平的ASR系统相结合。通过实验发现大型语言模型的双向性、预训练、领域内微调和上下文增强对ASR性能有显著改善作用，而词汇分析揭示了这些组件如何对ASR性能贡献。

Apr, 2022

基于大规模语言模型的长篇数据重打分

研究表明，在使用大规模语言模型的情况下，对于长篇ASR测试集，可以使Word Error Eate 和Salient Term Error Rate分别减少8%和30%。

Jun, 2023

语音识别中零-shot领域调适的大型语言模型启发

本文介绍了两种使用LLaMA的零样本ASR领域适应方法，这两种方法可以通过一个领域特定的文本提示有效地减少跨领域TedLium-2和SPGISpeech数据集上的词错误率（WER），特别是，深度LLM-fusion具有更好的实体召回和词汇外单词的召回优势。

Jun, 2023

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在Multilingual LibriSpeech上的实验证明，即使在LLM被冻结或者音频编码器使用几乎1秒的步幅生成更少嵌入时，多语种ASR仍然可行，从而为LLMs在长篇音频中进行操作开辟了可能性。

Jul, 2023

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练LLM的上下文化语音识别能力并显著提高性能。

Sep, 2023

将LLMs转化为跨模态和跨语言检索系统

使用大型语言模型进行多模态双编码检索系统，能够在多种语言中匹配语音和文本，提升召回率并实现跨语言匹配。

Apr, 2024

混合监督语音处理的预训练大型语言模型的离散多模态变换器

本文介绍了一种仅有解码器的离散多模态语言模型（DMLM），可以灵活应用于多个任务（ASR，T2S，S2TT等）和模态（文本，语音，视觉），并探索了离散多模态模型的几个关键方面，包括损失函数、权重初始化、混合监督训练和码本。结果表明，通过组合监督和无监督训练，DMLM在多个任务和数据集上显著受益。此外，对于ASR，它从预训练的大型语言模型（LLM）和由Whisper激活导出的码本中受益。

Jun, 2024

应用LLMs对非正式对话的ASR候选解进行再评分：领域适应和上下文传递的影响

大语言模型已成功应用于重新评分自动语音识别假设，本研究揭示了它在非正式谈话中重新评分自动语音识别假设的能力，证明了Llama2在CHiME-7远程ASR任务上的优越性。

Jun, 2024

大型语言模型可以在多说话者场景中根据多样化指令进行语音转录

本研究针对当前大型语言模型在多说话者场景中的应用缺乏，首次探讨了其在这些复杂环境中进行转录的潜力。通过结合WavLM和Whisper编码器提取多维语音特征，并将其输入到微调的LLM中，我们展示了MT-LLM系统在鸡尾酒会场景中的优异表现，证明了LLM在遵循用户指令进行语音处理方面的巨大潜力。

Sep, 2024