具有对话上下文信息的声学到词语模型
本研究提出了一种对话上下文感知的语音识别模型,该模型可以在端到端的方式下明确地使用除句子级别信息以外的上下文信息,以使整个系统能够被训练得更好并表现得更优秀。我们在 Switchboard 交谈语音语料库上评估了我们的方法并显示出优于可比较的句子级端到端语音识别系统的效果。
Aug, 2018
本文提出一种方法,使用注意力分配从监督序列到序列的语音到单词识别模型中直接构建上下文语音嵌入。在一系列 16 个标准句子评估任务中,我们的嵌入表现与在语音转录中训练的 word2vec 模型相当。此外,我们在口语理解任务上评估这些嵌入并观察到,我们的嵌入匹配基于文本的嵌入在首先进行语音识别,然后从转录中构建单词嵌入的流水线中的性能。
Feb, 2019
本文提出一种新颖的基于门控神经网络的语音识别模型,采用对话上下文 / 词 / 语音嵌入,结合外部词和 / 或句子嵌入来提高对话上下文表示,从而显著提高单词错误率,对 Switchboard 对话语音语料库的实验表明我们的模型优于标准的端到端语音识别模型。
Jun, 2019
介绍了一个配方来训练一个 A2W 模型,以缩小与常规模型的差距,并呈现了一个联合单词 - 字符 A2W 模型,以提供富有意义的输出。
Dec, 2017
该研究提出了一种音频 - 文本交叉模态表示提取器,通过 attention 机制,将上下文文本表示作为上下文提供给 ASR 解码器,有效地提高了智能语音识别的性能。
Jul, 2022
本文提出了一种新颖的自动语音识别 (CLAS) 系统,它对上下文短语进行深层次融合,对 ASR 进行了联合优化,并且在测试阶段可以识别未知词汇,相对于传统的浅层融合方法,提高了 68% 的相对识别率。
Aug, 2018
本文总结了基于深度学习的声学模型最近取得的进展和技术的动机和见解,讨论了可以有效利用可变长度上下文信息的语音识别模型,如 RNN、CNN 及其与其他模型的组合,以及优化了端对端性能的声学模型和鲁棒性训练策略,同时讨论了语音增强和分离等建模技术。
Apr, 2018
使用 CTC 损失和双向 LSTM RNN 网络,基于整词的声学单位构建连续语音识别系统,无需传统上下文依赖的子词单元和语言模型。
Oct, 2016
本文提出一种利用端到端方法,基于对话流转信息学习两个不同说话者交互的语音识别模型。该模型采用讲话人特定的交叉注意机制来帮助识别长时间的对话,并在 Switchboard 对话语音库上进行了评估,表现出优异的性能。
Jul, 2019
通过引入跨模态对话表示,结合预训练的语音和文本模型,扩展 Conformer 编码器 - 解码器模型,我们的方法能够提取更丰富的历史语音上下文,实现较标准 Conformer 模型相对准确度提升 8.8%(HKUST)和 23%(MagicData-RAMC)的结果。
Oct, 2023