DiarizationLM：大型语言模型的说话人分离后处理

Jan, 2024

DiarizationLM：大型语言模型的说话人分离后处理

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia...

TL;DR介绍了 DiarizationLM 框架，利用大型语言模型对说话人辨别系统的输出进行后处理，可用于提高辨别的可读性或降低词辨别错误率。实验证明，通过使用经过微调的 PaLM 2-S 模型，可以在 Fisher 电话对话数据集上降低 WDER 约 25.9％，在 Callhome English 数据集上降低约 31％。

Abstract

In this paper, we introduce diarizationlm, a framework to leverage large language models (LLM) to post-process the outputs from a speaker diarization system. Various goals can be achieved with the proposed framew

diarizationlm large language models speaker diarization automatic speech recognition word diarization error rate

发现论文，激发创造

基于 LLM 的说话人分离修正：通用方法

使用大型语言模型进行后处理的讲话者辨析能够显著提高辨别的准确性，并研发了能够适用于不同自动语音识别工具的综合模型。

Jun, 2024

词汇发音者错误更正：利用语言模型进行发音者离话错误更正

本篇论文探讨了使用语言模型的 Speaker diarization second-pass error correction approach 引入词汇信息，可以有效且稳健地提高多个电话数据集上的单词级别 Diarization 错误率（WDER）降低 15％至 30％。

Jun, 2023

利用大型语言模型进行生成式语音识别误差校正

使用大型语言模型进行 ASR 后处理，通过指令提示和上下文学习改进错误纠正，与领域精调模型相比，显示了语言模型的泛化能力。

Sep, 2023

多阶段大型语言模型纠错用于语音识别

使用大型语言模型提高竞争性语音识别系统的性能，并通过多阶段方法结合传统语言模型重新评分和大型语言模型提示来进行 ASR 错误修正。

Oct, 2023

医疗的声音：利用大型语言模型提高医学转录自动语音识别准确性

本研究探讨了大型语言模型（LLMs）在医学转录中提高自动语音识别（ASR）系统准确性的潜力，通过使用 PriMock57 数据集对 ASR 生成的转录进行改善，改进了一般词错误率（WER）、医学概念错误率（MC-WER）和音频流分离准确性，同时通过比较不同提示技术在日记化和纠错准确性上的有效性，发现 LLMs 特别是 Chain-of-Thought（CoT）提示技术不仅改善了现有 ASR 系统的日记化准确性，而且在医学转录领域取得了卓越表现，从而更准确地捕捉医学概念并提高转录对话的语义连贯性，这些发现表明 LLMs 在增强 ASR 输出的同时，也在转录任务中独立取得了显著成果，为改进医学 ASR 系统、提高医疗保健领域的病患记录的准确性和可靠性带来巨大的希望。

Feb, 2024

去噪语言模型：将错误修正模型推向语音识别极限

使用大量合成数据进行训练的缩放误差校正模型 (Denoising LM) 在自动语音识别 (ASR) 系统中实现了最先进的性能表现，通过合成语音进入 ASR 系统并与原始文本配对训练，DLM 取得了 1.5% 的单词错误率 (WER) 以及在 Librispeech 上新的 ASR 性能记录，并展示了取代传统语言模型的潜力。

May, 2024

语音识别中零 - shot 领域调适的大型语言模型启发

本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法，这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率（WER），特别是，深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。

Jun, 2023

基于大规模语言模型的长篇数据重打分

研究表明，在使用大规模语言模型的情况下，对于长篇 ASR 测试集，可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。

Jun, 2023

一种统一的模型？走向端到端的联合说话人分离与语音识别

这篇论文提出了一个名为 SLIDAR（滑动窗口判别增强识别）的新颖框架，用于联合演讲者判别和自动语音识别，能够处理任意长度的输入和任意数量的说话人，通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入，并通过聚类说话人嵌入获得全局演讲者身份，实验证实了该方法在近距离和远场语音场景中的有效性。

Oct, 2023

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023