Promptformer: 给予提示的变换解码器用于 ASR

Jan, 2024

Promptformer: 给予提示的变换解码器用于 ASR

Promptformer: Prompted Conformer Transducer for ASR

Sergio Duarte-Torres, Arunasish Sen, Aman Rana, Lukas Drude, Alejandro Gomez-Alanis...

TL;DR通过用于自动语音识别的注意机制中的超级提示灵感引入一种新颖机制，将文本上下文与声音表示融合起来，并通过在包含多轮互动的测试集上实现 5.9% 的相对词错误率减少 (rWERR)，显示出我们的方法在以前的基线上有所改进。我们证明了即使没有上下文，我们的方法也不会退化，并且在不使用上下文训练模型的情况下仍然有所改进。此外，我们进一步表明，利用预训练的句子片段模型进行上下文嵌入生成可以优于外部 BERT 模型。

Abstract

context cues carry information which can improve multi-turn interactions in automatic speech recognition (ASR) systems. In this paper, we introduce a novel mechanism inspired by →

context cues automatic speech recognition hyper-prompting attention mechanism word error rate reduction

发现论文，激发创造

具有可控风格的上下文感知语音识别的 PromptASR

使用提示将上下文信息以控制风格的方式整合到端到端自动语音识别系统中，从而提高识别准确性和降低词错误率。

Sep, 2023

针对 Conformer 转录器语音识别系统的有效紧凑上下文表示

本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法，并通过在先前话语的历史向量上应用特殊设计的注意力池化层，来优化了基于 Conformer-Transducer 编码器的 ASR 系统，在 1000 小时的 Gigaspeech 语音语料上进行了实验，结果表明相对于仅使用话语内部语境的基线模型，该系统达到了 0.7% 至 0.5% 的绝对词错误率的统计显着降低（相对降低了 4.3% 至 3.1%）的效果。

Jun, 2023

通过学习音频 - 文本跨模态上下文表示实现会话语音识别

通过引入跨模态对话表示，结合预训练的语音和文本模型，扩展 Conformer 编码器 - 解码器模型，我们的方法能够提取更丰富的历史语音上下文，实现较标准 Conformer 模型相对准确度提升 8.8%（HKUST）和 23%（MagicData-RAMC）的结果。

Oct, 2023

面向上下文的语音识别变换器转录器

本文介绍了一种基于上下文的自动语音识别系统：context-aware transformer transducer (CATT) 网络，通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法，取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。

Nov, 2021

自洽的上下文感知转移学习器用于语音识别

我们提出了一种基于转录者的新型神经网络架构，通过增加上下文信息流来提高自动语音识别系统的准确性，特别是对于不常见的词语识别准确性的改进。我们研究了使用该新模型和 / 或与上下文语言模型浅层融合时不常见词的准确性改进，并发现两者的组合在不常见词识别准确性上具有累计增益。

Feb, 2024

利用声学情景表征通过音频文本跨模态学习用于会话 ASR

该研究提出了一种音频 - 文本交叉模态表示提取器，通过 attention 机制，将上下文文本表示作为上下文提供给 ASR 解码器，有效地提高了智能语音识别的性能。

Jul, 2022

神经传输器中的鲁棒声学语义上下文偏置在语音识别中的应用

研究提出一种轻量级字符表示的方法来编码精细的发音特征，以提高基于声学相似性的情境偏倚，在与音频和情境实体相关的语义上执行情境偏倚，并集成预训练的神经语言模型（NLM）。在 Librispeech 数据集上进行的实验表明，在不同的情境偏见列表大小上，采用提出的声学偏倚和语义偏倚方法，相对于基线情境模型，Conformer Transducer 模型相对 WER 提高了 4.62％-9.26％。在大规模的内部数据集上，相对于基准模型，相对 WER 的提高为 7.91％。在 Librispeech 稀有单词和内部测试集上，尾部话语的表现甚至更加显著，分别实现了 36.80％和 23.40％的相对 WER 改善。

May, 2023

神经背景性偏倚的文本插入

通过上下文中注入文本的方式，使用大规模未配对的文本来优化自动语音识别（ASR）模型及其偏置成分，提高重要短语的识别准确率。实验证明，使用 1000 亿个文本句子进行 CTI，相对于强大的神经偏置模型，可以实现高达 43.3% 的相对词错误率的降低。CTI-MWER 进一步提供了 23.5% 的相对改进。

Jun, 2024

利用跨句上下文和多任务语言建模进行电子商务聊天机器人的语音识别适应

本文探讨了改进 Transformer-XL NLM 以重评 ASR N-best 提示的各种技术，包括利用上下文化、域自适应和多任务模型等方面；结果显示，模型的性能明显优于 LSTM LM 基准模型。

Jun, 2021

用引导注意力改进 ASR 上下文偏见

通过引入引导注意力（GA）辅助训练损失，本研究提出了一种改进自动语音识别（ASR）上下文偏置的有效性和鲁棒性的方法，该方法在不引入额外参数的情况下改善了偏置短语数量增加时上下文偏置所能带来的字错误率（WER）减少。通过在 Conformer Transducer with Contextual Adapter 基础上进行大量实验，证明了所提出的方法不仅能降低 WER，而且在偏置短语数量增加时仍然保持其有效性。

Jan, 2024