跨模态 ASR 后处理系统,用于纠错和话语拒绝
通过引入跨模态对话表示,结合预训练的语音和文本模型,扩展 Conformer 编码器 - 解码器模型,我们的方法能够提取更丰富的历史语音上下文,实现较标准 Conformer 模型相对准确度提升 8.8%(HKUST)和 23%(MagicData-RAMC)的结果。
Oct, 2023
该研究提出了一种新的方法来通过后期编辑来纠正语音识别错误。通过使用一个神经序列标注器来逐字学习如何纠正 ASR(自动语音识别)假设,以及一个应用标注器返回的纠正的纠错模块,该解决方案适用于任何 ASR 系统,提供对正在纠正的错误的高精确度控制,尤其在生产环境中更为关键。研究结果显示,所提出的错误纠正模型的性能与之前的方法相当,同时需要更少的训练资源,适合于工业应用,其中推理延迟和训练时间是限制其他技术应用的关键因素。
Jun, 2024
使用不同词错误率(WERs)的 ASR 转录对 IEMOCAP,CMU-MOSI 和 MSP-Podcast 等已知语料库进行 SER 性能评估,同时提出了一个统一的 ASR 错误抗干扰框架,并与最佳表现的 ASR 转录进行比较,实现了更低的 WER 和更高的 SER 结果,为 SER 与 ASR 协助的研究提供了洞见。
Jun, 2024
该论文提出了一种基于中间地带的方法来处理多说话者语音识别,该方法既利用了情感识别模块类似于模块化方法的显式语音分离技术,又将混合语音信息直接纳入 ASR 模块,以减轻语音分离器所产生的错误传播,并且通过结合个体说话者信息的层来交换跨说话者的上下文信息。
Jun, 2023
该研究提出了一种音频 - 文本交叉模态表示提取器,通过 attention 机制,将上下文文本表示作为上下文提供给 ASR 解码器,有效地提高了智能语音识别的性能。
Jul, 2022
本文提出了一种最先进的单声道多说话者端到端自动语音识别模型,通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能,实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。
Nov, 2018
介绍了一种基于神经网络的自然语言处理方法,用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明,该方案可以显著降低概念 / 值错误率,并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制,可以识别出置信度区间和不确定性的语义输出片段,进而决定适当的错误处理措施。
May, 2017
本文提出了一种多模式自动语音识别模型,通过考虑附带的视觉上下文来减少口头指令的错误转录,使用了仿真的噪声环境。实验结果表明,使用多模态 ASR 模型可使任务完成的准确性得到提高。
Feb, 2023