利用语音识别能力激发大型语言模型
本文介绍了两种使用LLaMA的零样本ASR领域适应方法,这两种方法可以通过一个领域特定的文本提示有效地减少跨领域TedLium-2和SPGISpeech数据集上的词错误率(WER),特别是,深度LLM-fusion具有更好的实体召回和词汇外单词的召回优势。
Jun, 2023
该研究介绍了Speech-LLaMA,一种将声学信息有效地整合到基于文本的大型语言模型中的新方法,并进一步探索了仅解码器架构在语音处理任务中的应用。
Jul, 2023
本文旨在探讨将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中以提高转录准确性的潜力,并通过实验表明在当前阶段,使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。
Jul, 2023
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练LLM的上下文化语音识别能力并显著提高性能。
Sep, 2023
该论文通过比较研究了三种常用的连接结构,包括全连接层、多头交叉注意力和Q-Former,并对Whisper系列的语音编码器和Vicuna系列的大语言模型进行了实验,结果表明基于Q-Former的大语言模型相比其他连接结构在LibriSpeech、Common Voice和GigaSpeech数据集上均取得了一致且显著的词错误率降低。此外,提出了一种新颖的片段级Q-Former,使大语言模型能够识别超过编码器限制的持续时间的语音片段,在90秒长的语音数据上相比其他连接结构取得了17%的词错误率降低。
Sep, 2023
利用多语言语言模型与多语言语音编码器,本研究提出BLOOMZMMS,旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法,我们验证了从文本到语音模态的语言知识的可传递性。实验证明,可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性,但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性,包括语音翻译和多语言口语理解,从而为语音领域应用大型语言模型开辟了新的途径。
Apr, 2024
基于大型语言模型的自动语音识别研究,探索了多种配置下的语音编码器、语言模型和投影模块对ASR性能的影响,采用三阶段训练方法实现了在中文数据集上的最佳表现,为未来LLM基于ASR系统的研究提供了实证基础和性能优化的见解。
May, 2024
本研究解决了语音识别系统在处理稀有和模糊词汇时的准确性不足问题。通过在文本提示中提供关键词作为先前信息,作者提出了一种新的自回归解码架构,能够在不修改模型架构的情况下对模糊词进行准确转录。实验结果表明,该方法显著提高了罕见和模糊词汇的识别性能。
Aug, 2024
本研究针对当前大型语言模型在多说话者场景中的应用缺乏,首次探讨了其在这些复杂环境中进行转录的潜力。通过结合WavLM和Whisper编码器提取多维语音特征,并将其输入到微调的LLM中,我们展示了MT-LLM系统在鸡尾酒会场景中的优异表现,证明了LLM在遵循用户指令进行语音处理方面的巨大潜力。
Sep, 2024
本研究解决了当前大语言模型在多语言和代码切换语境中应用的不足,提出了一种多语言多任务(MLMT)模型,将语音生成与识别任务整合在一起。我们的数据构建方法无须依赖代码切换数据即可实现语音合成,实验结果显示该模型在多语言语音生成和识别任务中明显优于其他基线模型。
Sep, 2024