面向上下文感知语音识别的视觉特征

Dec, 2017

面向上下文感知语音识别的视觉特征

Visual Features for Context-Aware Speech Recognition

Abhinav Gupta, Yajie Miao, Leonardo Neves, Florian Metze

TL;DR该论文提出了一种基于 DNN 技术的语音识别系统及 RNN 语言模型来提高视频自动生成的字幕准确性，通过对视频中自动检测到的物体或场景的条件来减少困惑度和提高转录，可以应用于机器人、人机交互及音视频存档索引等领域。

Abstract

Automatic transcriptions of consumer-generated multi-media content such as "Youtube" videos still exhibit high word error rates. Such data typically occupies a very broad domain, has been recorded in challenging conditions, with cheap hardware and a focus on the visual modality, and may have been post-processed or edited. In this paper, we extend our earlier

speech recognition dnn rnn context video-to-text

发现论文，激发创造

端到端多模态语音识别

探讨了如何应用视觉通道，以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性，并比较了两种方法在干净和嘈杂的数据上的效果。

Apr, 2018

用文字转录结果定位物体检测

本文提出一种自动从指示视频中提取实体 - 视频帧对的方法，以用于创建任务特定的训练集元算法。

Jun, 2019

言之有据：基于视觉语境的话语表达

该研究关注如何将视觉内容整合到对话 AI 系统中，提出了一种基于视觉上下文的任务，利用在线教育视频数据集自动训练一个多模态视觉 - 语音预测模型，能够优于基于文本输入的基准模型，并在多个 VideoQA 基准测试中获得最先进的表现.

Dec, 2020

多模式语音识别及非结构化语音掩蔽

本篇论文研究了在嘈杂的情况下，如何通过视觉上下文提升语音识别的准确性，并通过模拟 RandWordMask 掩码模式验证了多模态 ASR 系统在不同掩码模式下的泛化能力，结论显示在一定程度上可提升 ASR 系统的能力。

Oct, 2020

看能增强听：使用图像恢复丢失的语音

本研究探讨了利用图像确立语音识别模型中文字的语义含义，以减少噪音干扰并提高模型鲁棒性的方法。实验结果表明整合视觉信息可以显著提高模型性能，增强语音信号对语音识别的帮助

Feb, 2020

听觉、视觉与思考：基于预训练的文本 - 视频表示的视觉上下文感知语音识别

本研究致力于解决利用视觉信号来提高语音识别（ASR）的问题，探讨了一种基于自监督预训练的文本视频嵌入模型的视觉上下文感知 ASR 方法，该方法包括多流注意力结构和熟思（deliberation）模型，利用视觉信息的熟思模型比多流模型在干扰噪声下提高了语音识别正确率和恢复被屏蔽单词的准确率。

Nov, 2020

基于视觉化支撑的未转录语音关键词预测学习

这篇论文中，采用图像与未翻译口头说明的组合，研究计算机视觉系统是否可以用于获取语音的文本标签，并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后，训练神经网络将语音映射到这些软目标。结果表明，语音识别系统能够预测话语中出现的单词，并作为口头词组分类器，同时还经常混淆语义相关的词，例如 “男人” 和 “人” ，使其效果更好作为语义关键词识别器。

Mar, 2017

从原始感官输入中联合发现视觉对象和口语单词

本文针对语音与图像之间的语义关联关系，探讨了不需要传统监督方式的神经网络模型，并使用了 Places 205 和 ADE20k 数据集来验证模型，在不太需要标签、分割或模态对齐的情况下可以实现语音和图像的自动检索、详细定位以及进行时间、空间上的隐含的物体和单词检测。

Apr, 2018

上下文问题：用递归神经网络提升视频中的物体检测

该论文提出了一种新的框架，通过捕捉时间空间和鼓励预测一致性来提高视频中的目标检测表现，并融合了强、弱监督的训练方式和平滑性惩罚，提高了 Youtube-Video Objects 数据集上的平均精度（mAP）。

Jul, 2016

音视频语音识别的循环神经网络转录器

本研究提出了一种基于循环神经网络转录者（RNN-T）架构的大规模视音频语音识别系统，并通过比较语音，视觉和视听系统在两个大词汇测试集上的表现，以及在带噪声和重叠的人工干扰的数据上的表现，突显了视觉模态的贡献。据我们所知，我们的系统显著改善了现有技术在公开数据集 LRS3-TED 上的表现。

Nov, 2019