利用LLM生成的上下文描述改善特定领域的自动语音识别
使用预训练的DeepSpeech2和Wav2Vec2声学模型,提出了基于领域的语音自动识别系统,并通过半监督机器注释的方式收集领域特定的数据,研究结果表明,该系统即使在具有更高的字词错误率的情况下,性能仍优于商业自动语音识别系统,且在人工转录的结果上也呈现出类似的效果。同时,也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。
Mar, 2023
本文介绍了两种使用LLaMA的零样本ASR领域适应方法,这两种方法可以通过一个领域特定的文本提示有效地减少跨领域TedLium-2和SPGISpeech数据集上的词错误率(WER),特别是,深度LLM-fusion具有更好的实体召回和词汇外单词的召回优势。
Jun, 2023
本文旨在探讨将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中以提高转录准确性的潜力,并通过实验表明在当前阶段,使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。
Jul, 2023
提出了一种新的自适应ASR模型到新目标领域的策略,其中使用大型语言模型生成目标领域文本语料库,并使用最先进的可控语音合成模型生成相应的语音,通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果,实验证明该方法在未知目标领域上能达到平均相对词错误率提高28%,且源领域性能无降低。
Sep, 2023
利用预训练语音表示模型与大型语言模型(LLM)的集成,通过以语音表示作为语音提示,自动逐步生成文本标记,以利用LLM提供的广博知识,从而实现端到端的自动语音识别(ASR)模型,该模型还可结合推理优化和参数高效领域适应等关键技术,实现与现代端到端ASR模型相媲美的性能。
Dec, 2023
基于大型语言模型的自动语音识别研究,探索了多种配置下的语音编码器、语言模型和投影模块对ASR性能的影响,采用三阶段训练方法实现了在中文数据集上的最佳表现,为未来LLM基于ASR系统的研究提供了实证基础和性能优化的见解。
May, 2024
大语言模型已成功应用于重新评分自动语音识别假设,本研究揭示了它在非正式谈话中重新评分自动语音识别假设的能力,证明了Llama2在CHiME-7远程ASR任务上的优越性。
Jun, 2024
本研究解决了语音识别系统在处理稀有和模糊词汇时的准确性不足问题。通过在文本提示中提供关键词作为先前信息,作者提出了一种新的自回归解码架构,能够在不修改模型架构的情况下对模糊词进行准确转录。实验结果表明,该方法显著提高了罕见和模糊词汇的识别性能。
Aug, 2024
本文研究了变压器在预训练语言模型(PLMs)中作为自动语音识别(ASR)编码器的有效性,填补了这一领域的研究空白。研究表明,变压器在从文本数据中提取特征的能力可以有效转化为处理语音数据,从而显著提升ASR的性能。我们的实验结果显示,在多种ASR任务中,使用预训练语言模型的变压器能显著降低字符错误率(CER)和单词错误率(WER),尤其在需要深刻语义理解的场景中效果更为显著。
Sep, 2024
本研究解决了现有自动语音识别系统在识别稀有词汇时的局限性。我们提出了一种CTC辅助的上下文自动语音识别模型,通过有效的过滤算法提升了识别稀有长尾词汇的准确性。实验证明,该模型在Librispeech测试集上显著提高了识别性能,相较于基线模型和其他相关工作,展现出强大的潜在影响。
Nov, 2024