生成式大型语言模型能否执行 ASR 错误校正?
该论文提出了一种新的 ASR 生成性错误纠正范式 ClozeGER,通过引入一种多模态 LLM(即 SpeechGPT)来改善纠正输出的忠实度,然后将 GER 重新设计为带有 logits 校准的 cloze 测试,以消除输入信息冗余并简化 GER 过程。实验证明,ClozeGER 在 9 个流行的 ASR 数据集上取得了新的突破。
May, 2024
该研究评估了不同尺寸的预训练语言模型(如 ChatGPT 和 OPT)在多个基准测试上对于口语语言理解(SLU)的影响。结果表明,最大的模型可在各种语言的语料库中使用零或少量注释即可接近于监督模型的意图分类准确性,但在槽填充方面表现不佳,并且对 ASR 错误敏感。
May, 2023
本文探讨在对话环境中使用 GPT4 进行 ASR 错误校正,通过使用语义文本相似度和下一回应的合理性评估错误校正模型对对话质量的影响,我们发现 GPT4 矫正的转录虽然会增加词错误率,但会导致更高的对话质量,且无需领域内训练数据。
Jul, 2023
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构,将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型,并接近于使用 Transformer-XL 神经语言模型重新评分的性能。
Oct, 2019
本文提出了一种利用大型语言模型和自动语音识别所生成的假设列表来解决语码转换的问题的方法,通过低秩适配器实现假设到转录的映射,并且实验证明该方法显著提高了语码转换自动语音识别的准确性,并且大型语言模型在数据效率方面表现出色,为低资源语言中语码转换自动语音识别的数据稀缺问题提供了潜在解决方案。
Oct, 2023
本文旨在探究 ChatGPT 在语法错误修复领域的潜力,通过设计零样本连贯性(CoT)和少样本 CoT 方案来进行评估,并通过在不同语言以及英语文件级别 GEC 测试集中的表现和人工评估来展示该模型的优秀的错误检测能力和非常流利的纠错结果。此外,作者强调其在低资源和多语言 GEC 任务中的潜力,但是需要进一步分析各种类型的跨句子错误,并展示 ChatGPT 对于某些类型的错误仍然存在一定的局限性。
Apr, 2023
本文提出了一种基于 N-best T5 模型和约束解码过程的语音识别自动纠错方法,通过从预训练语言模型中传递知识和获取 ASR 解码空间中更丰富的信息,该方法在 ASR 后处理中取得了更好的性能表现。
Mar, 2023
该研究使用预训练序列到序列模型 BART,并对其进行自适应训练来对自动语音识别中的发音和拼写错误进行纠正,并采用词级对齐的简单方法重新评分。实验结果表明,该策略在口音语音数据上有效地矫正了大量 ASR 错误,并在与基准系统的比较中产生了改进的 WER 结果。然而,在印地语语法错误纠正任务中,该模型捕捉更广泛上下文的能力受到限制。
Feb, 2022