具有对话上下文信息的声学到词语模型

ACLMay, 2019

具有对话上下文信息的声学到词语模型

Acoustic-to-Word Models with Conversational Context Information

Suyoun Kim, Florian Metze

TL;DR直接从声音到单词，利用交际上下文信息的端到端语音识别模型，在 Switchboard 语料库上验证表现优于现有模型。

Abstract

conversational context information, higher-level knowledge that spans across sentences, can help to recognize a long conversation. However, existing speech recognition models are typically built at a sentence level, and thus it may not capture important →

speech recognition conversational context end-to-end model acoustic-to-word switchboard corpus

发现论文，激发创造

上下文感知的端到端语音识别

本研究提出了一种对话上下文感知的语音识别模型，该模型可以在端到端的方式下明确地使用除句子级别信息以外的上下文信息，以使整个系统能够被训练得更好并表现得更优秀。我们在 Switchboard 交谈语音语料库上评估了我们的方法并显示出优于可比较的句子级端到端语音识别系统的效果。

Aug, 2018

语音识别中的学习：上下文音频词嵌入

本文提出一种方法，使用注意力分配从监督序列到序列的语音到单词识别模型中直接构建上下文语音嵌入。在一系列 16 个标准句子评估任务中，我们的嵌入表现与在语音转录中训练的 word2vec 模型相当。此外，我们在口语理解任务上评估这些嵌入并观察到，我们的嵌入匹配基于文本的嵌入在首先进行语音识别，然后从转录中构建单词嵌入的流水线中的性能。

Feb, 2019

对话上下文融合的端到端语音识别中的门控嵌入

本文提出一种新颖的基于门控神经网络的语音识别模型，采用对话上下文 / 词 / 语音嵌入，结合外部词和 / 或句子嵌入来提高对话上下文表示，从而显著提高单词错误率，对 Switchboard 对话语音语料库的实验表明我们的模型优于标准的端到端语音识别模型。

Jun, 2019

构建英语会话语音识别的具有竞争力的直接声学到单词模型

介绍了一个配方来训练一个 A2W 模型，以缩小与常规模型的差距，并呈现了一个联合单词 - 字符 A2W 模型，以提供富有意义的输出。

Dec, 2017

利用声学情景表征通过音频文本跨模态学习用于会话 ASR

该研究提出了一种音频 - 文本交叉模态表示提取器，通过 attention 机制，将上下文文本表示作为上下文提供给 ASR 解码器，有效地提高了智能语音识别的性能。

Jul, 2022

深度上下文：端到端的上下文语音识别

本文提出了一种新颖的自动语音识别 (CLAS) 系统，它对上下文短语进行深层次融合，对 ASR 进行了联合优化，并且在测试阶段可以识别未知词汇，相对于传统的浅层融合方法，提高了 68% 的相对识别率。

Aug, 2018

基于深度学习的声学模型最新进展（更新）

本文总结了基于深度学习的声学模型最近取得的进展和技术的动机和见解，讨论了可以有效利用可变长度上下文信息的语音识别模型，如 RNN、CNN 及其与其他模型的组合，以及优化了端对端性能的声学模型和鲁棒性训练策略，同时讨论了语音增强和分离等建模技术。

Apr, 2018

神经语音识别：基于声学到词汇 LSTM 模型的大词汇量语音识别

使用 CTC 损失和双向 LSTM RNN 网络，基于整词的声学单位构建连续语音识别系统，无需传统上下文依赖的子词单元和语言模型。

Oct, 2016

交叉注意力端到端语音识别技术在双方对话中的应用

本文提出一种利用端到端方法，基于对话流转信息学习两个不同说话者交互的语音识别模型。该模型采用讲话人特定的交叉注意机制来帮助识别长时间的对话，并在 Switchboard 对话语音库上进行了评估，表现出优异的性能。

Jul, 2019

通过学习音频 - 文本跨模态上下文表示实现会话语音识别

通过引入跨模态对话表示，结合预训练的语音和文本模型，扩展 Conformer 编码器 - 解码器模型，我们的方法能够提取更丰富的历史语音上下文，实现较标准 Conformer 模型相对准确度提升 8.8%（HKUST）和 23%（MagicData-RAMC）的结果。

Oct, 2023