面向上下文感知语音识别的视觉特征
探讨了如何应用视觉通道,以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性,并比较了两种方法在干净和嘈杂的数据上的效果。
Apr, 2018
该研究关注如何将视觉内容整合到对话 AI 系统中,提出了一种基于视觉上下文的任务,利用在线教育视频数据集自动训练一个多模态视觉 - 语音预测模型,能够优于基于文本输入的基准模型,并在多个 VideoQA 基准测试中获得最先进的表现.
Dec, 2020
本篇论文研究了在嘈杂的情况下,如何通过视觉上下文提升语音识别的准确性,并通过模拟 RandWordMask 掩码模式验证了多模态 ASR 系统在不同掩码模式下的泛化能力,结论显示在一定程度上可提升 ASR 系统的能力。
Oct, 2020
本研究探讨了利用图像确立语音识别模型中文字的语义含义,以减少噪音干扰并提高模型鲁棒性的方法。实验结果表明整合视觉信息可以显著提高模型性能,增强语音信号对语音识别的帮助
Feb, 2020
本研究致力于解决利用视觉信号来提高语音识别(ASR)的问题,探讨了一种基于自监督预训练的文本视频嵌入模型的视觉上下文感知 ASR 方法,该方法包括多流注意力结构和熟思(deliberation)模型,利用视觉信息的熟思模型比多流模型在干扰噪声下提高了语音识别正确率和恢复被屏蔽单词的准确率。
Nov, 2020
这篇论文中,采用图像与未翻译口头说明的组合,研究计算机视觉系统是否可以用于获取语音的文本标签,并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后,训练神经网络将语音映射到这些软目标。结果表明,语音识别系统能够预测话语中出现的单词,并作为口头词组分类器,同时还经常混淆语义相关的词,例如 “男人” 和 “人” ,使其效果更好作为语义关键词识别器。
Mar, 2017
本文针对语音与图像之间的语义关联关系,探讨了不需要传统监督方式的神经网络模型,并使用了 Places 205 和 ADE20k 数据集来验证模型,在不太需要标签、分割或模态对齐的情况下可以实现语音和图像的自动检索、详细定位以及进行时间、空间上的隐含的物体和单词检测。
Apr, 2018
该论文提出了一种新的框架,通过捕捉时间空间和鼓励预测一致性来提高视频中的目标检测表现,并融合了强、弱监督的训练方式和平滑性惩罚,提高了 Youtube-Video Objects 数据集上的平均精度(mAP)。
Jul, 2016
本研究提出了一种基于循环神经网络转录者(RNN-T)架构的大规模视音频语音识别系统,并通过比较语音,视觉和视听系统在两个大词汇测试集上的表现,以及在带噪声和重叠的人工干扰的数据上的表现,突显了视觉模态的贡献。据我们所知,我们的系统显著改善了现有技术在公开数据集 LRS3-TED 上的表现。
Nov, 2019