医疗的声音：利用大型语言模型提高医学转录自动语音识别准确性

Feb, 2024

医疗的声音：利用大型语言模型提高医学转录自动语音识别准确性

The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models

Ayo Adedeji, Sarita Joshi, Brendan Doohan

TL;DR本研究探讨了大型语言模型（LLMs）在医学转录中提高自动语音识别（ASR）系统准确性的潜力，通过使用 PriMock57 数据集对 ASR 生成的转录进行改善，改进了一般词错误率（WER）、医学概念错误率（MC-WER）和音频流分离准确性，同时通过比较不同提示技术在日记化和纠错准确性上的有效性，发现 LLMs 特别是 Chain-of-Thought（CoT）提示技术不仅改善了现有 ASR 系统的日记化准确性，而且在医学转录领域取得了卓越表现，从而更准确地捕捉医学概念并提高转录对话的语义连贯性，这些发现表明 LLMs 在增强 ASR 输出的同时，也在转录任务中独立取得了显著成果，为改进医学 ASR 系统、提高医疗保健领域的病患记录的准确性和可靠性带来巨大的希望。

Abstract

In the rapidly evolving landscape of medical documentation, transcribing clinical dialogues accurately is increasingly paramount. This study explores the potential of large language models (LLMs) to enhance the accuracy of →

automatic speech recognition large language models medical transcription word error rate medical concepts

发现论文，激发创造

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

基于 LLM 的说话人分离修正：通用方法

使用大型语言模型进行后处理的讲话者辨析能够显著提高辨别的准确性，并研发了能够适用于不同自动语音识别工具的综合模型。

Jun, 2024

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

多阶段大型语言模型纠错用于语音识别

使用大型语言模型提高竞争性语音识别系统的性能，并通过多阶段方法结合传统语言模型重新评分和大型语言模型提示来进行 ASR 错误修正。

Oct, 2023

利用大型语言模型进行生成式语音识别误差校正

使用大型语言模型进行 ASR 后处理，通过指令提示和上下文学习改进错误纠正，与领域精调模型相比，显示了语言模型的泛化能力。

Sep, 2023

利用调教的大型语言模型的零射击能力进行端到端语音识别

我们提出了一种将指导训练的大型语言模型 (LLM) 与端到端自动语音识别 (ASR) 相结合的新方法。该方法利用 LLMs 的零 - shot 能力来提取语言信息，从而改善 ASR 性能，其中包括纠正 ASR 假设中的语法错误，并利用嵌入的语言知识进行端到端 ASR。实验证明，所提出的集成方法能够取得良好的性能改进，并且我们的方法在 LLM 基于重排序时得到了很大的好处。

Sep, 2023

再次聆听并选择正确答案：大语言模型下自动语音识别的新范式

该论文提出了一种新的 ASR 生成性错误纠正范式 ClozeGER，通过引入一种多模态 LLM（即 SpeechGPT）来改善纠正输出的忠实度，然后将 GER 重新设计为带有 logits 校准的 cloze 测试，以消除输入信息冗余并简化 GER 过程。实验证明，ClozeGER 在 9 个流行的 ASR 数据集上取得了新的突破。

May, 2024

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

语音识别中零 - shot 领域调适的大型语言模型启发

本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法，这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率（WER），特别是，深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。

Jun, 2023

MaLa-ASR: 多媒体辅助的基于 LLM 的 ASR

提出了基于 LLM 的 ASR 模型 MaLa-ASR，可以整合从演示文稿中提取的文本关键词来提高会议内容的识别率，通过在输入提示中添加关键词，可将有偏差的词错误率（B-WER）相对减少 46.0％和 44.2％，在该数据集上取得了新的 SOTA。

Jun, 2024