基于 LLM 的说话人分离修正:通用方法
介绍了 DiarizationLM 框架,利用大型语言模型对说话人辨别系统的输出进行后处理,可用于提高辨别的可读性或降低词辨别错误率。实验证明,通过使用经过微调的 PaLM 2-S 模型,可以在 Fisher 电话对话数据集上降低 WDER 约 25.9%,在 Callhome English 数据集上降低约 31%。
Jan, 2024
本研究探讨了大型语言模型(LLMs)在医学转录中提高自动语音识别(ASR)系统准确性的潜力,通过使用 PriMock57 数据集对 ASR 生成的转录进行改善,改进了一般词错误率(WER)、医学概念错误率(MC-WER)和音频流分离准确性,同时通过比较不同提示技术在日记化和纠错准确性上的有效性,发现 LLMs 特别是 Chain-of-Thought(CoT)提示技术不仅改善了现有 ASR 系统的日记化准确性,而且在医学转录领域取得了卓越表现,从而更准确地捕捉医学概念并提高转录对话的语义连贯性,这些发现表明 LLMs 在增强 ASR 输出的同时,也在转录任务中独立取得了显著成果,为改进医学 ASR 系统、提高医疗保健领域的病患记录的准确性和可靠性带来巨大的希望。
Feb, 2024
本篇论文探讨了使用语言模型的 Speaker diarization second-pass error correction approach 引入词汇信息,可以有效且稳健地提高多个电话数据集上的单词级别 Diarization 错误率(WDER)降低 15%至 30%。
Jun, 2023
本文旨在探讨将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中以提高转录准确性的潜力,并通过实验表明在当前阶段,使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。
Jul, 2023
使用大量合成数据进行训练的缩放误差校正模型 (Denoising LM) 在自动语音识别 (ASR) 系统中实现了最先进的性能表现,通过合成语音进入 ASR 系统并与原始文本配对训练,DLM 取得了 1.5% 的单词错误率 (WER) 以及在 Librispeech 上新的 ASR 性能记录,并展示了取代传统语言模型的潜力。
May, 2024
本文提出了一个综合解决方案,包括更加细致的微调方案、匹配损失用于增强模态对齐、以及训练和推理方法来减少插入错误,实验证明部分微调语音编码器和语言模型,以及使用诸如 LoRA 的参数高效方法是最具成本效益的方法,匹配损失能够提升模态对齐,而所提出的训练和推理方法则显著减少了插入错误。
Jun, 2024
研究表明,在使用大规模语言模型的情况下,对于长篇 ASR 测试集,可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。
Jun, 2023
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在 Multilingual LibriSpeech 上的实验证明,即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时,多语种 ASR 仍然可行,从而为 LLMs 在长篇音频中进行操作开辟了可能性。
Jul, 2023