通过学习音频 - 文本跨模态上下文表示实现会话语音识别
该研究提出了一种音频 - 文本交叉模态表示提取器,通过 attention 机制,将上下文文本表示作为上下文提供给 ASR 解码器,有效地提高了智能语音识别的性能。
Jul, 2022
本文提出一种基于端到端神经网络框架的会话自动语音识别模型,该模型使用潜变量模块来学习会话级别的角色偏好和主题连贯性,并使用一个主题模型来偏置解码器的输出,以预测主题中的单词。在两个汉语会话自动语音识别任务上的实验表明,该模型实现了最大 12% 相对字符错误率的降低。
Feb, 2022
本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别(AV-ASR)系统,特别关注视觉信息提供的场景背景,以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示,并使用附加的跨模态多头注意层融合视频特征。此外,我们还采用多任务培训标准用于多分辨率 ASR,同时训练模型生成字符和子词级转录。实验结果表明,多分辨率训练可以加速收敛速度约 50%,并且相对于子词预测模型,单词错误率(WER)性能提高了高达 18%。此外,融合视觉信息可以改善表现,在仅使用音频模型的基础上,相对增益高达 3.76%。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。
Apr, 2020
本文探讨了改进 Transformer-XL NLM 以重评 ASR N-best 提示的各种技术,包括利用上下文化、域自适应和多任务模型等方面;结果显示,模型的性能明显优于 LSTM LM 基准模型。
Jun, 2021
本文提出了一种多模式自动语音识别模型,通过考虑附带的视觉上下文来减少口头指令的错误转录,使用了仿真的噪声环境。实验结果表明,使用多模态 ASR 模型可使任务完成的准确性得到提高。
Feb, 2023
本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法,并通过在先前话语的历史向量上应用特殊设计的注意力池化层,来优化了基于 Conformer-Transducer 编码器的 ASR 系统,在 1000 小时的 Gigaspeech 语音语料上进行了实验,结果表明相对于仅使用话语内部语境的基线模型,该系统达到了 0.7% 至 0.5% 的绝对词错误率的统计显着降低(相对降低了 4.3% 至 3.1%) 的效果。
Jun, 2023
我们提出了一种新方法,在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力,从而准确地递交准确的转录结果,涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模,通过使用基于 Transformer 的模型对单词格进行重新评分,实现了显著的性能提升和词错误率的明显降低,在 LibriSpeech 数据集上进行了实证分析,证明了我们提出的框架的有效性。
Oct, 2023
利用多模态表示,通过自动语音识别模型转录语音并通过预训练翻译模型将转录文本翻译成不同语言,结合文本和音频特征使用级联交叉模态变压器 (CCMT) 模型来实现语音分类任务,该模型在 ACM Multimedia 2023 计算语音学挑战中获得不错的性能,并在 Speech Commands v2 和 HarperValleyBank 对话数据集上超过了之前的研究成果。
Jan, 2024
我们提出了一种新的半监督自动语音识别方法,利用表示学习从无标注音频数据中重建滤波器组特征,并使用得到的深度上下文化的声学表示训练基于 CTC 的端到端自动语音识别系统,实验表明我们的方法能够显著提高系统性能并大幅减少所需标注数据量。
Dec, 2019