探索大型语言模型与自动语音识别系统的整合:实证研究
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练 LLM 的上下文化语音识别能力并显著提高性能。
Sep, 2023
本研究探讨了大型语言模型(LLMs)在医学转录中提高自动语音识别(ASR)系统准确性的潜力,通过使用 PriMock57 数据集对 ASR 生成的转录进行改善,改进了一般词错误率(WER)、医学概念错误率(MC-WER)和音频流分离准确性,同时通过比较不同提示技术在日记化和纠错准确性上的有效性,发现 LLMs 特别是 Chain-of-Thought(CoT)提示技术不仅改善了现有 ASR 系统的日记化准确性,而且在医学转录领域取得了卓越表现,从而更准确地捕捉医学概念并提高转录对话的语义连贯性,这些发现表明 LLMs 在增强 ASR 输出的同时,也在转录任务中独立取得了显著成果,为改进医学 ASR 系统、提高医疗保健领域的病患记录的准确性和可靠性带来巨大的希望。
Feb, 2024
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在 Multilingual LibriSpeech 上的实验证明,即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时,多语种 ASR 仍然可行,从而为 LLMs 在长篇音频中进行操作开辟了可能性。
Jul, 2023
我们提出了一种将指导训练的大型语言模型 (LLM) 与端到端自动语音识别 (ASR) 相结合的新方法。该方法利用 LLMs 的零 - shot 能力来提取语言信息,从而改善 ASR 性能,其中包括纠正 ASR 假设中的语法错误,并利用嵌入的语言知识进行端到端 ASR。实验证明,所提出的集成方法能够取得良好的性能改进,并且我们的方法在 LLM 基于重排序时得到了很大的好处。
Sep, 2023
基于大型语言模型的自动语音识别研究,探索了多种配置下的语音编码器、语言模型和投影模块对 ASR 性能的影响,采用三阶段训练方法实现了在中文数据集上的最佳表现,为未来 LLM 基于 ASR 系统的研究提供了实证基础和性能优化的见解。
May, 2024
研究表明,在使用大规模语言模型的情况下,对于长篇 ASR 测试集,可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。
Jun, 2023
将大型语言模型(LLMs)集成到自动语音识别(ASR)和机器翻译(MT)系统中,通过利用 N-best 列表细化 ASR 输出和精炼 LLM 来提高翻译质量,实现了 ASR 和 MT 系统的性能改进。
Jun, 2024