动态环境下的短期词汇学习
基于自我监督的持续学习方法,在自动语音识别系统中识别新词时表现出增长性能,通过使用来自之前工作中的增强型记忆自动语音识别模型,通过偏置模型向滑动中的新词进行解码,并对检测到的新词使用推理,将包含这些新词的话语收集到自适应数据集中,对该集进行持续学习,通过调整加到每个模型的权重矩阵上的低秩矩阵权重。该方法在新词经常出现时获得递增性能(超过 80% 的召回率),同时保持模型的一般性能。
Jan, 2024
通过上下文偏差对 Whisper 模型进行改进,提出了一种优化行话词识别的新方法。采用关键词检测模型,利用 Whisper 编码器表示动态生成的提示来引导解码器。引入了 KG-Whisper 和 KG-Whisper-PT 两种方法来有效引导解码器,并在特定关键词的识别准确率和整体词错误率上取得了显著的改进。在未见过的语言泛化中,与 Whisper 相比,平均词错误率提高了 5.1%。
Jun, 2024
本文介绍一种基于模型的端到端语境自适应方法,它不依赖于解码器,适合用于设备上的个性化训练,实验结果表明,相比传统的重新评分技术,在连续个性化场景中,该方法可以使相对识别率(WER)提高 12%,实体提及特定 F1 得分提高 15.7%。
Oct, 2021
本篇论文提出了一种利用文本到语音系统生成 OOV 单词并通过损失调整和正则化实现语音识别系统的持续学习,并且相比于之前的方法,该方法可以实现更高的召回率和更高的准确性。
Feb, 2023
通过使用多模式语音文本嵌入网络,从语音文本数据库中直接查询校正候选项,以消除音频 - 假设不匹配问题,并在将候选项添加到原始候选列表之前使用语音 - 文本嵌入距离对候选项进行评分,该方法在改善检索率的同时,降低了相对的词错误率(WER)。
Jan, 2024
我们提出了一种新方法,在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力,从而准确地递交准确的转录结果,涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模,通过使用基于 Transformer 的模型对单词格进行重新评分,实现了显著的性能提升和词错误率的明显降低,在 LibriSpeech 数据集上进行了实证分析,证明了我们提出的框架的有效性。
Oct, 2023
本文介绍了一种基于序列到序列的正常语音识别模型,它适用于 9 种不同的印度语言,并通过训练语言特定的字形集合,将这些语言联合起来训练模型以提高其性能。
Nov, 2017
本文提出了一种方法,通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题,并扩展了注意力机制的解码器和神经音响模式的解码器,以实现错误率的降低。
Feb, 2022