本文提出了一种新颖的自动语音识别(CLAS)系统,它对上下文短语进行深层次融合,对ASR进行了联合优化,并且在测试阶段可以识别未知词汇,相对于传统的浅层融合方法,提高了68%的相对识别率。
Aug, 2018
本文探索多句子语境下神经语言模型的应用,并介绍结合了注意力机制和LSTM的新型模型在语音识别和长跨度语言模型方面的实验结果。
Nov, 2019
该研究介绍了Speech-LLaMA,一种将声学信息有效地整合到基于文本的大型语言模型中的新方法,并进一步探索了仅解码器架构在语音处理任务中的应用。
Jul, 2023
本文旨在探讨将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中以提高转录准确性的潜力,并通过实验表明在当前阶段,使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在Multilingual LibriSpeech上的实验证明,即使在LLM被冻结或者音频编码器使用几乎1秒的步幅生成更少嵌入时,多语种ASR仍然可行,从而为LLMs在长篇音频中进行操作开辟了可能性。
理解上下文是理解人类语言的关键,本论文介绍了一个上下文理解基准,通过适应现有数据集来评估生成模型的能力,并发现预先训练的稠密模型在理解复杂上下文特征方面比优化调整模型困难。
Feb, 2024
利用多语言语言模型与多语言语音编码器,本研究提出BLOOMZMMS,旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法,我们验证了从文本到语音模态的语言知识的可传递性。实验证明,可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性,但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性,包括语音翻译和多语言口语理解,从而为语音领域应用大型语言模型开辟了新的途径。
Apr, 2024
本研究解决了语音识别系统在处理稀有和模糊词汇时的准确性不足问题。通过在文本提示中提供关键词作为先前信息,作者提出了一种新的自回归解码架构,能够在不修改模型架构的情况下对模糊词进行准确转录。实验结果表明,该方法显著提高了罕见和模糊词汇的识别性能。
Aug, 2024
本研究针对当前大型语言模型在多说话者场景中的应用缺乏,首次探讨了其在这些复杂环境中进行转录的潜力。通过结合WavLM和Whisper编码器提取多维语音特征,并将其输入到微调的LLM中,我们展示了MT-LLM系统在鸡尾酒会场景中的优异表现,证明了LLM在遵循用户指令进行语音处理方面的巨大潜力。
Sep, 2024
本研究解决了自动语音识别(ASR)系统因可用转录语音数据有限而导致的性能瓶颈。提出了利用多模态大型语言模型进行ASR重评分的创新技术,并探索了判别训练来提升重评分性能。实验表明,通过语音-文本基础模型的跨模态知识转移,重评分效果显著提升,相较Whisper大型ASR和仅基于文本的LLM分别提高了20%和15%的相对性能。