利用大型语言模型攫取 ASR 不确定性
本文介绍了一些简单而有效的模型,以从自动语音识别模块获取的 N(N 为一个任意数)-best 解释中共同挖掘语音信号的语义信息,提高现代口语理解系统的性能。
Jan, 2020
使用自动语音识别提供的多个文本替代方案,采用简化的表述方式,通过 transformer 模型 BERT 和 XLM-RoBERTa 对 N-best 替代方案的连接作为输人,提高了 Spoken Language Understanding 系统的性能。
Jun, 2021
通过使用自动语音识别系统的网络输出来弥补语音模糊性,增强口语语言理解的结果,通过对置信网络的词语混淆进行实验,研究大型语言模型对嘈杂的语音转录本的鲁棒性,探讨在不同自动语音识别性能条件下的影响因素。
Jan, 2024
本文旨在探讨将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中以提高转录准确性的潜力,并通过实验表明在当前阶段,使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。
Jul, 2023
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在 Multilingual LibriSpeech 上的实验证明,即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时,多语种 ASR 仍然可行,从而为 LLMs 在长篇音频中进行操作开辟了可能性。
Jul, 2023
通过对大型语言模型和语音基础编码器进行多种组合的基准测试和研究,本文提出了一种简单而高效的 SLAM-ASR 系统,该系统在 Librispeech 基准测试中表现出色,并且超过了最新的音频通用模型。同时,本文还探讨了基于 LLM 的 ASR 的能力发展和模态对齐的问题。
Feb, 2024
本文研究了基于现有自然语言理解模型的语音助手中由自动语音识别误差引起的性能损失,并提出一种多模态语言理解模块,利用自监督学习从语音和文本模态中获取特征,最终通过对音频信号和文本传输进行编码来获得更好的性能。
Jun, 2023
本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法,这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率(WER),特别是,深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。
Jun, 2023