耳语 LLaMA: 语音识别的跨模态生成错误修正框架

EMNLPOct, 2023

耳语 LLaMA: 语音识别的跨模态生成错误修正框架

Whispering LLaMA: A Cross-Modal Generative Error Correction Framework for Speech Recognition

Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Rohit Kumar, Narsis A. Kiani...

TL;DR我们引入了一种新的跨模态融合技术，用于在自动语音识别（ASR）中进行生成性错误校正。我们的方法利用声学信息和外部语言表示来生成准确的语音转录上下文。与现有的基于排名的重排序方法不同，我们的方法巧妙地使用了不同的初始化技术和参数高效算法，从预训练的语音和文本模型中提高了 ASR 性能。通过在多样的 ASR 数据集上评估，我们评估了我们的融合技术的稳定性和可重现性，并相对于 n-best 假设的错误率（WERR）性能相对提高了 37.66%。为了鼓励未来的研究，我们将我们的代码和预训练模型开源。

Abstract

We introduce a new cross-modal fusion technique designed for generative error correction in automatic speech recognition (ASR). Our methodology leverages both acoustic information and external linguistic represen

cross-modal fusion technique generative error correction automatic speech recognition n-best hypotheses word error rate

发现论文，激发创造

HyPoradise: 一种基于大型语言模型的生成式语音识别的开放基准

采用外部巨大语言模型 (LLMs) 进行自动语音识别 (ASR) 错误订正的首个开源基准测试涵盖了超过 334,000 个 N-best 假设及相应准确转录数据对，通过三种不同程度标记的假设 - 转录对利用 LLMs 实现了显著的词错误率 (WER) 降低，实验结果表明该技术突破了传统的重新排名方法上限并具备生成能力，从而纠正了 N-best 列表中缺失的标记，提供了一个基于 LLMs 的 ASR 错误订正的全新评估范式。

Sep, 2023

利用大型语言模型进行生成式语音识别误差校正

使用大型语言模型进行 ASR 后处理，通过指令提示和上下文学习改进错误纠正，与领域精调模型相比，显示了语言模型的泛化能力。

Sep, 2023

MaLa-ASR: 多媒体辅助的基于 LLM 的 ASR

提出了基于 LLM 的 ASR 模型 MaLa-ASR，可以整合从演示文稿中提取的文本关键词来提高会议内容的识别率，通过在输入提示中添加关键词，可将有偏差的词错误率（B-WER）相对减少 46.0％和 44.2％，在该数据集上取得了新的 SOTA。

Jun, 2024

再次聆听并选择正确答案：大语言模型下自动语音识别的新范式

该论文提出了一种新的 ASR 生成性错误纠正范式 ClozeGER，通过引入一种多模态 LLM（即 SpeechGPT）来改善纠正输出的忠实度，然后将 GER 重新设计为带有 logits 校准的 cloze 测试，以消除输入信息冗余并简化 GER 过程。实验证明，ClozeGER 在 9 个流行的 ASR 数据集上取得了新的突破。

May, 2024

LoRA-Whisper: 参数高效且可扩展的多语言语音识别

本文提出了 LoRA-Whisper 模型，通过将 LoRA 矩阵融入 Whisper，有效减轻多语种自动语音识别中的语言干扰，并通过利用 LoRA 和语言之间的相似性，在新语种上取得更好的性能，同时保持原有语种的稳定性。在涉及八种语言的真实任务实验中，我们的提出的 LoRA-Whisper 相对于基准系统分别在多语种自动语音识别和语言扩展方面获得了 18.5% 和 23.0% 的相对增益。

Jun, 2024

跨模态 ASR 后处理系统，用于纠错和话语拒绝

本文提出了一种跨模态后处理系统，包括融合不同模态的声学特征和文本特征、联合置信度估计器和错误修正器以及统一的错误修正和话语拒绝模块等，证明相较于单模型或单任务模型，该系统更加有效率地减小语音识别中字符错误率 (CER)，且每个单词的额外延迟在可接受范围内。

Jan, 2022

Whisper-MCE：用于混合语言更佳性能的 Whisper 模型微调

本文介绍了 Whisper-MCE 模型在 minor language 和 mixed language 语音识别方面的卓越表现，同时提出一种新的评估机制以解决在这些语境下对其有效性进行评估时的挑战。通过将我们的模型与基线模型 whisper-large-v2 进行比较，我们展示了其准确捕捉原始音频内容、实现更高的识别准确率和更快的识别速度的卓越能力。值得注意的是，在识别 mixed language 的特定任务中，我们的模型超越了其他现有模型。

Oct, 2023

针对语音识别鲁棒性的上下文化嵌入在口语理解中的学习

本研究提出了一种新的混淆感知的微调方法，以减轻 ASR 误差对已预训练的语言模型产生的影响，并在 ATIS 数据集上进行了实验，结果表明该方法显著提高了 ASR 转录文本上口语理解的性能。

Sep, 2019

大语言模型用于代码转换语音识别的生成错误校正

本文提出了一种利用大型语言模型和自动语音识别所生成的假设列表来解决语码转换的问题的方法，通过低秩适配器实现假设到转录的映射，并且实验证明该方法显著提高了语码转换自动语音识别的准确性，并且大型语言模型在数据效率方面表现出色，为低资源语言中语码转换自动语音识别的数据稀缺问题提供了潜在解决方案。

Oct, 2023

多阶段大型语言模型纠错用于语音识别

使用大型语言模型提高竞争性语音识别系统的性能，并通过多阶段方法结合传统语言模型重新评分和大型语言模型提示来进行 ASR 错误修正。

Oct, 2023