再次聆听并选择正确答案：大语言模型下自动语音识别的新范式

ACLMay, 2024

再次聆听并选择正确答案：大语言模型下自动语音识别的新范式

Listen Again and Choose the Right Answer: A New Paradigm for Automatic Speech Recognition with Large Language Models

Yuchen Hu, Chen Chen, Chengwei Qin, Qiushi Zhu, Eng Siong Chng...

TL;DR该论文提出了一种新的 ASR 生成性错误纠正范式 ClozeGER，通过引入一种多模态 LLM（即 SpeechGPT）来改善纠正输出的忠实度，然后将 GER 重新设计为带有 logits 校准的 cloze 测试，以消除输入信息冗余并简化 GER 过程。实验证明，ClozeGER 在 9 个流行的 ASR 数据集上取得了新的突破。

Abstract

Recent advances in large language models (LLMs) have promoted generative error correction (GER) for automatic speech recognition (ASR), which aims to predict the ground-truth transcription from the decoded N-best

large language models generative error correction automatic speech recognition multimodal llm asr datasets

发现论文，激发创造

生成式大型语言模型能否执行 ASR 错误校正？

本文使用 ChatGPT 模型作为例子，研究其在零样本或一次样本设置中执行 ASR 错误校正的能力，并提出了无约束错误校正和 N-best 约束错误校正方法。结果表明，使用强大的 ChatGPT 模型进行错误校正可以大大提高 ASR 系统性能。

Jul, 2023

大型语言模型在噪声鲁棒性语音识别中的高效学习

通过引入噪声条件器和知识蒸馏方法，我们提出从 N-best 列表中提取语言空间噪声嵌入，以增强噪声鲁棒性和改善识别结果的方法。实验证明该方法在有限的训练数据下，可以获得高达 53.9% 的纠错率改善，表现出强大的语言空间降噪能力。

Jan, 2024

大语言模型用于代码转换语音识别的生成错误校正

本文提出了一种利用大型语言模型和自动语音识别所生成的假设列表来解决语码转换的问题的方法，通过低秩适配器实现假设到转录的映射，并且实验证明该方法显著提高了语码转换自动语音识别的准确性，并且大型语言模型在数据效率方面表现出色，为低资源语言中语码转换自动语音识别的数据稀缺问题提供了潜在解决方案。

Oct, 2023

HyPoradise: 一种基于大型语言模型的生成式语音识别的开放基准

采用外部巨大语言模型 (LLMs) 进行自动语音识别 (ASR) 错误订正的首个开源基准测试涵盖了超过 334,000 个 N-best 假设及相应准确转录数据对，通过三种不同程度标记的假设 - 转录对利用 LLMs 实现了显著的词错误率 (WER) 降低，实验结果表明该技术突破了传统的重新排名方法上限并具备生成能力，从而纠正了 N-best 列表中缺失的标记，提供了一个基于 LLMs 的 ASR 错误订正的全新评估范式。

Sep, 2023

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

GenTranslate：大型语言模型是生成式跨语音和机器翻译器

利用大型语言模型的丰富语言知识和强大的推理能力，我们提出了一种新的生成式翻译范式 ——“GenTranslate”，可以从 N 个候选译文中生成更高质量的翻译结果，并且在各种语音和机器翻译基准测试中明显优于现有模型。

Feb, 2024

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

利用大型语言模型进行生成式语音识别误差校正

使用大型语言模型进行 ASR 后处理，通过指令提示和上下文学习改进错误纠正，与领域精调模型相比，显示了语言模型的泛化能力。

Sep, 2023

医疗的声音：利用大型语言模型提高医学转录自动语音识别准确性

本研究探讨了大型语言模型（LLMs）在医学转录中提高自动语音识别（ASR）系统准确性的潜力，通过使用 PriMock57 数据集对 ASR 生成的转录进行改善，改进了一般词错误率（WER）、医学概念错误率（MC-WER）和音频流分离准确性，同时通过比较不同提示技术在日记化和纠错准确性上的有效性，发现 LLMs 特别是 Chain-of-Thought（CoT）提示技术不仅改善了现有 ASR 系统的日记化准确性，而且在医学转录领域取得了卓越表现，从而更准确地捕捉医学概念并提高转录对话的语义连贯性，这些发现表明 LLMs 在增强 ASR 输出的同时，也在转录任务中独立取得了显著成果，为改进医学 ASR 系统、提高医疗保健领域的病患记录的准确性和可靠性带来巨大的希望。

Feb, 2024

关于预训练语言模型 N-gram 逼近的研究

本研究调查了预先训练的语言模型在自动语音识别中的潜在用途，对比了大规模文本抽样和概率转换的应用。在八个特定领域的语料库中，发现采样的近似方法支持使用，插值与大规模文本语料库一起使用对比基线三元组能使测试困惑度提高 15％，我们引入了一种有限制的词汇解码方法，这将进一步提高 5％的改进。

Jun, 2023