语音识别中零-shot领域调适的大型语言模型启发
本文旨在探讨将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中以提高转录准确性的潜力,并通过实验表明在当前阶段,使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。
Jul, 2023
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在Multilingual LibriSpeech上的实验证明,即使在LLM被冻结或者音频编码器使用几乎1秒的步幅生成更少嵌入时,多语种ASR仍然可行,从而为LLMs在长篇音频中进行操作开辟了可能性。
Jul, 2023
我们提出了一种将指导训练的大型语言模型(LLM)与端到端自动语音识别(ASR)相结合的新方法。该方法利用LLMs的零-shot能力来提取语言信息,从而改善ASR性能,其中包括纠正ASR假设中的语法错误,并利用嵌入的语言知识进行端到端ASR。实验证明,所提出的集成方法能够取得良好的性能改进,并且我们的方法在LLM基于重排序时得到了很大的好处。
Sep, 2023
提出了一种新的自适应ASR模型到新目标领域的策略,其中使用大型语言模型生成目标领域文本语料库,并使用最先进的可控语音合成模型生成相应的语音,通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果,实验证明该方法在未知目标领域上能达到平均相对词错误率提高28%,且源领域性能无降低。
Sep, 2023
本文提出了一种基于提示的精调方法(LlamaIT),以实现对通用语言模型(LLM)在领域特定机器翻译任务中的有效和高效精调,并通过零样本提示与指令适应目标领域。结果表明,LlamaIT能够显著提升LLM的领域特定机器翻译能力,同时保持其零样本机器翻译能力。
Feb, 2024
大语言模型已成功应用于重新评分自动语音识别假设,本研究揭示了它在非正式谈话中重新评分自动语音识别假设的能力,证明了Llama2在CHiME-7远程ASR任务上的优越性。
Jun, 2024
本研究针对现有端到端自动语音识别系统在识别特定领域词汇(如专有名词和技术术语)方面的不足,提出了一种利用最新的Whisper模型,并结合描述生成和解码器微调等新颖训练方法的改进方法。实验证明,这种方法显著提高了特定领域ASR的准确性,且LLM生成的描述在有效性上优于人工撰写的描述。
Jul, 2024
本研究解决了语音识别系统在处理稀有和模糊词汇时的准确性不足问题。通过在文本提示中提供关键词作为先前信息,作者提出了一种新的自回归解码架构,能够在不修改模型架构的情况下对模糊词进行准确转录。实验结果表明,该方法显著提高了罕见和模糊词汇的识别性能。
Aug, 2024
本研究解决了自动语音识别(ASR)系统因可用转录语音数据有限而导致的性能瓶颈。提出了利用多模态大型语言模型进行ASR重评分的创新技术,并探索了判别训练来提升重评分性能。实验表明,通过语音-文本基础模型的跨模态知识转移,重评分效果显著提升,相较Whisper大型ASR和仅基于文本的LLM分别提高了20%和15%的相对性能。
Sep, 2024