跨模态 ASR 后处理系统，用于纠错和话语拒绝

Jan, 2022

跨模态 ASR 后处理系统，用于纠错和话语拒绝

Cross-Modal ASR Post-Processing System for Error Correction and Utterance Rejection

Jing Du, Shiliang Pu, Qinbo Dong, Chao Jin, Xin Qi...

TL;DR本文提出了一种跨模态后处理系统，包括融合不同模态的声学特征和文本特征、联合置信度估计器和错误修正器以及统一的错误修正和话语拒绝模块等，证明相较于单模型或单任务模型，该系统更加有效率地减小语音识别中字符错误率 (CER)，且每个单词的额外延迟在可接受范围内。

Abstract

Although modern automatic speech recognition (ASR) systems can achieve high performance, they may produce errors that weaken readers' experience and do harm to downstream tasks. To improve the accuracy and reliability of ASR hypotheses, we propose a →

automatic speech recognition cross-modal post-processing system multi-task learning error correction character error rate

发现论文，激发创造

通过学习音频 - 文本跨模态上下文表示实现会话语音识别

通过引入跨模态对话表示，结合预训练的语音和文本模型，扩展 Conformer 编码器 - 解码器模型，我们的方法能够提取更丰富的历史语音上下文，实现较标准 Conformer 模型相对准确度提升 8.8%（HKUST）和 23%（MagicData-RAMC）的结果。

Oct, 2023

高精度纠错：一种用于纠正语音识别错误的后期编辑方法

该研究提出了一种新的方法来通过后期编辑来纠正语音识别错误。通过使用一个神经序列标注器来逐字学习如何纠正 ASR（自动语音识别）假设，以及一个应用标注器返回的纠正的纠错模块，该解决方案适用于任何 ASR 系统，提供对正在纠正的错误的高精确度控制，尤其在生产环境中更为关键。研究结果显示，所提出的错误纠正模型的性能与之前的方法相当，同时需要更少的训练资源，适合于工业应用，其中推理延迟和训练时间是限制其他技术应用的关键因素。

Jun, 2024

多阶段多模态预训练自动语音识别

多模态预训练可以提高自动语音识别性能，尤其是结合多任务无监督预训练和基于翻译的有监督中间训练方法可以实现显著的字错误率改善。

Mar, 2024

基于 ASR 转录的语音情感识别：关于词误率和融合技术的全面研究

使用不同词错误率（WERs）的 ASR 转录对 IEMOCAP，CMU-MOSI 和 MSP-Podcast 等已知语料库进行 SER 性能评估，同时提出了一个统一的 ASR 错误抗干扰框架，并与最佳表现的 ASR 转录进行比较，实现了更低的 WER 和更高的 SER 结果，为 SER 与 ASR 协助的研究提供了洞见。

Jun, 2024

混合编码器用于语音分离和识别

该论文提出了一种基于中间地带的方法来处理多说话者语音识别，该方法既利用了情感识别模块类似于模块化方法的显式语音分离技术，又将混合语音信息直接纳入 ASR 模块，以减轻语音分离器所产生的错误传播，并且通过结合个体说话者信息的层来交换跨说话者的上下文信息。

Jun, 2023

利用声学情景表征通过音频文本跨模态学习用于会话 ASR

该研究提出了一种音频 - 文本交叉模态表示提取器，通过 attention 机制，将上下文文本表示作为上下文提供给 ASR 解码器，有效地提高了智能语音识别的性能。

Jul, 2022

无预训练的端到端单声道多说话人 ASR 系统

本文提出了一种最先进的单声道多说话者端到端自动语音识别模型，通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能，实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。

Nov, 2018

ed-cec：基于错误检测和上下文感知错误修正的提升罕见词识别的后处理方式

通过错误检测和上下文感知的错误修正来改善对于罕见单词的识别，同时实现了具有较低词错误率的自动语音识别系统。

Oct, 2023

提高口语理解的 ASR 错误管理

介绍了一种基于神经网络的自然语言处理方法，用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明，该方案可以显著降低概念 / 值错误率，并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制，可以识别出置信度区间和不确定性的语义输出片段，进而决定适当的错误处理措施。

May, 2017

语言引导的具身化智能体多模式语音识别

本文提出了一种多模式自动语音识别模型，通过考虑附带的视觉上下文来减少口头指令的错误转录，使用了仿真的噪声环境。实验结果表明，使用多模态 ASR 模型可使任务完成的准确性得到提高。

Feb, 2023