利用声学情景表征通过音频文本跨模态学习用于会话 ASR

Jul, 2022

利用声学情景表征通过音频文本跨模态学习用于会话 ASR

Leveraging Acoustic Contextual Representation by Audio-textual Cross-modal Learning for Conversational ASR

Kun Wei, Yike Zhang, Sining Sun, Lei Xie, Long Ma

TL;DR该研究提出了一种音频 - 文本交叉模态表示提取器，通过 attention 机制，将上下文文本表示作为上下文提供给 ASR 解码器，有效地提高了智能语音识别的性能。

Abstract

Leveraging context information is an intuitive idea to improve performance on conversational automatic speech recognition(ASR). Previous works usually adopt recognized hypotheses of historical utterances as preceding context, which may bias the current recognized hypothesis due to the

contextual representation audio-textual cross-modal extractor conversational asr speech recognition attention mechanism

发现论文，激发创造

通过学习音频 - 文本跨模态上下文表示实现会话语音识别

通过引入跨模态对话表示，结合预训练的语音和文本模型，扩展 Conformer 编码器 - 解码器模型，我们的方法能够提取更丰富的历史语音上下文，实现较标准 Conformer 模型相对准确度提升 8.8%（HKUST）和 23%（MagicData-RAMC）的结果。

Oct, 2023

上下文中的音频文本检索

本文通过使用音频特征和序列聚合方法来提高音频 - 文本对齐的准确性，并观察到在上下文检索中，语义映射比时间关系重要。结果表明，该系统在所有指标上均显著提高了双向音频文本检索。

Mar, 2022

音频文本分类的级联交叉模态 Transformer

利用多模态表示，通过自动语音识别模型转录语音并通过预训练翻译模型将转录文本翻译成不同语言，结合文本和音频特征使用级联交叉模态变压器 (CCMT) 模型来实现语音分类任务，该模型在 ACM Multimedia 2023 计算语音学挑战中获得不错的性能，并在 Speech Commands v2 和 HarperValleyBank 对话数据集上超过了之前的研究成果。

Jan, 2024

一种用于上下文化普通话语音识别的高效文本增强方法

使用简单的文本增强技术借助大量纯文本数据集来构建编码簿，可以提高预训练的 ASR 模型的上下文信息，从而显著提升识别性能。

Jun, 2024

深度上下文化声学表示用于半监督语音识别

我们提出了一种新的半监督自动语音识别方法，利用表示学习从无标注音频数据中重建滤波器组特征，并使用得到的深度上下文化的声学表示训练基于 CTC 的端到端自动语音识别系统，实验表明我们的方法能够显著提高系统性能并大幅减少所需标注数据量。

Dec, 2019

多模式语音识别及非结构化语音掩蔽

本篇论文研究了在嘈杂的情况下，如何通过视觉上下文提升语音识别的准确性，并通过模拟 RandWordMask 掩码模式验证了多模态 ASR 系统在不同掩码模式下的泛化能力，结论显示在一定程度上可提升 ASR 系统的能力。

Oct, 2020

CMSBERT-CLR: 基于上下文驱动的多模态移位 BERT 模型，通过对比学习实现语言、视觉和声学表示

该研究提出了一种基于上下文驱动的情感分析方法，利用对比学习提高不同模式的对其精度，从而达到在多模态情感分析领域的最优结果。

Aug, 2022

看能增强听：使用图像恢复丢失的语音

本研究探讨了利用图像确立语音识别模型中文字的语义含义，以减少噪音干扰并提高模型鲁棒性的方法。实验结果表明整合视觉信息可以显著提高模型性能，增强语音信号对语音识别的帮助

Feb, 2020

情感识别的多模态和多视角模型

采用多种视图学习方法来结合语音和词汇信息，训练出不需要词汇输入的部署式语音模型，该模型采用对比损失函数进行训练，实验结果表明这种方法和传统的基于语音信息的方法相比，有更好的准确性和鲁棒性。

Jun, 2019

具有对话上下文信息的声学到词语模型

直接从声音到单词，利用交际上下文信息的端到端语音识别模型，在 Switchboard 语料库上验证表现优于现有模型。

May, 2019