上下文感知的端到端语音识别

Aug, 2018

Dialog-context aware end-to-end speech recognition

Suyoun Kim, Florian Metze

TL;DR本研究提出了一种对话上下文感知的语音识别模型，该模型可以在端到端的方式下明确地使用除句子级别信息以外的上下文信息，以使整个系统能够被训练得更好并表现得更优秀。我们在 Switchboard 交谈语音语料库上评估了我们的方法并显示出优于可比较的句子级端到端语音识别系统的效果。

Abstract

Existing speech recognition systems are typically built at the sentence level, although it is known that dialog context, e.g. higher-level knowledge that spans across sentences or speakers, can help the processing of long conversations. The recent progress in end-to-end speech recognit

speech recognition system dialog context end-to-end model information integration switchboard corpus

发现论文，激发创造

具有对话上下文信息的声学到词语模型

直接从声音到单词，利用交际上下文信息的端到端语音识别模型，在 Switchboard 语料库上验证表现优于现有模型。

May, 2019

深度上下文：端到端的上下文语音识别

本文提出了一种新颖的自动语音识别 (CLAS) 系统，它对上下文短语进行深层次融合，对 ASR 进行了联合优化，并且在测试阶段可以识别未知词汇，相对于传统的浅层融合方法，提高了 68% 的相对识别率。

Aug, 2018

对话上下文融合的端到端语音识别中的门控嵌入

本文提出一种新颖的基于门控神经网络的语音识别模型，采用对话上下文 / 词 / 语音嵌入，结合外部词和 / 或句子嵌入来提高对话上下文表示，从而显著提高单词错误率，对 Switchboard 对话语音语料库的实验表明我们的模型优于标准的端到端语音识别模型。

Jun, 2019

为改善口语理解，朝着对话历史全面集成的方向发展

本研究提出了一种基于层次对话模型的端到端口语理解框架，可在不依赖于级联自动语音识别器的情况下直接使用语音形式的对话历史，构建语音和语义嵌入的文本模型，针对训练时间提出一种名为 DropFrame 的新技术。在 HarperValleyBank 对话数据集上，我们的 E2E 历史记录集成在对话行为识别任务上，比基线模型提高了 7.7％的 F1 分数，使用了 48％更少的参数，超过了基线 10％的绝对 F1 分数。

Apr, 2022

朝向端到端口语理解

本文研究了口语理解系统的端到端学习方法，能够直接从音频特征中推断语义意义，而不需要中间文本表示。研究表明，该模型能够获得合理好的结果，并能直接从音频特征中捕捉语义注意力。

Feb, 2018

交叉注意力端到端语音识别技术在双方对话中的应用

本文提出一种利用端到端方法，基于对话流转信息学习两个不同说话者交互的语音识别模型。该模型采用讲话人特定的交叉注意机制来帮助识别长时间的对话，并在 Switchboard 对话语音库上进行了评估，表现出优异的性能。

Jul, 2019

利用对话历史的语言和韵律语境进行端到端共情对话语音合成的声学建模

提出了一种综合考虑语言和韵律话语历史的共情式对话语音合成模型，通过预训练的自监督学习模型、引入韵律特征模型等手段，实现对话语境的适当预测，取得了优秀的语音合成效果。

Jun, 2022

基于类语言模型和令牌传递解码器的端到端语境语音识别

本文针对上下文语音识别难以适应 E2E 自动语音识别的问题，提出了使用基于类别的语言模型及高效微调令牌传递解码器来提高性能。实验表明，该方法在不改变解码超参数的情况下，有效降低了上下文语音识别的字词错误率，并不影响普通语音识别的表现。

Dec, 2018

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

情感自适应端到端对话系统

本研究提出，在末端到末端的对话系统学习框架中包含通过多模式信息获取的用户情感信息，以使系统更具用户适应性和效果。结果，这项工作是在自适应末端到末端对话系统训练框架中首次尝试将多模式用户信息纳入其中并达到最先进的表现。

Apr, 2018