多阶段大型语言模型纠错用于语音识别

Oct, 2023

多阶段大型语言模型纠错用于语音识别

Multi-stage Large Language Model Correction for Speech Recognition

Jie Pu, Thai-Son Nguyen, Sebastian Stüker

TL;DR使用大型语言模型提高竞争性语音识别系统的性能，并通过多阶段方法结合传统语言模型重新评分和大型语言模型提示来进行 ASR 错误修正。

Abstract

In this paper, we investigate the usage of large language models (LLMs) to improve the performance of competitive speech recognition systems. Different from →

large language models speech recognition systems traditional language models multi-stage approach asr error correction

发现论文，激发创造

利用大型语言模型进行生成式语音识别误差校正

使用大型语言模型进行 ASR 后处理，通过指令提示和上下文学习改进错误纠正，与领域精调模型相比，显示了语言模型的泛化能力。

Sep, 2023

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

基于大规模语言模型的长篇数据重打分

研究表明，在使用大规模语言模型的情况下，对于长篇 ASR 测试集，可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。

Jun, 2023

语音识别中零 - shot 领域调适的大型语言模型启发

本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法，这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率（WER），特别是，深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。

Jun, 2023

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

大规模语言模型重评分对竞争性 ASR 系统的影响与分析

本研究将大型语言模型（如 GPT-2, BERT, RoBERTa）应用于 ASR N-best rescoring，并将其与竞争性高、接近最新技术水平的 ASR 系统相结合。通过实验发现大型语言模型的双向性、预训练、领域内微调和上下文增强对 ASR 性能有显著改善作用，而词汇分析揭示了这些组件如何对 ASR 性能贡献。

Apr, 2022

可扩展的多语料神经语言模型用于 ASR

通过从异构语料库中训练神经语言模型、限制时延影响和处理第二遍修正器中的个性化偏差等挑战，本文在第二遍 n-best rescoring 框架中使用神经 LM，实现了 6.2% 的相对 WER 降低，而延迟增加很小。

Jul, 2019

医疗的声音：利用大型语言模型提高医学转录自动语音识别准确性

本研究探讨了大型语言模型（LLMs）在医学转录中提高自动语音识别（ASR）系统准确性的潜力，通过使用 PriMock57 数据集对 ASR 生成的转录进行改善，改进了一般词错误率（WER）、医学概念错误率（MC-WER）和音频流分离准确性，同时通过比较不同提示技术在日记化和纠错准确性上的有效性，发现 LLMs 特别是 Chain-of-Thought（CoT）提示技术不仅改善了现有 ASR 系统的日记化准确性，而且在医学转录领域取得了卓越表现，从而更准确地捕捉医学概念并提高转录对话的语义连贯性，这些发现表明 LLMs 在增强 ASR 输出的同时，也在转录任务中独立取得了显著成果，为改进医学 ASR 系统、提高医疗保健领域的病患记录的准确性和可靠性带来巨大的希望。

Feb, 2024

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

大型语言模型的命名实体上下文偏置

该研究探讨了大型语言模型（LLMs）中的上下文偏置，其中在二次通过重新评分期间，提供了额外的上下文信息以提升自动语音识别（ASR）性能。研究提议在重新评分期间利用提示方式对 LLM 进行偏置，其中包括偏置列表和少量示例，以作为计算假设得分时的额外信息。除了少量示例学习，该研究还提出了 LLM 的多任务训练，以预测实体类别和下一个标记。为了改进上下文偏置的效率并避免超过 LLM 的最大序列长度，该研究提出了动态提示，其中利用类别标签预测选择最可能的类别，并仅将该类别中的实体用作下一个标记预测的上下文。在内部通话、消息和听写数据集以及 SLUE-Voxpopuli 数据集上进行了字错误率（WER）评估。结果表明，偏置列表和少量示例相对于第一次通过 ASR 可以分别实现 17.8% 和 9.6% 的改善，而多任务训练和动态提示则可以分别实现 20.0% 和 11.3% 的相对 WER 改善。

Sep, 2023