Dec, 2017

面向上下文感知语音识别的视觉特征

TL;DR该论文提出了一种基于 DNN 技术的语音识别系统及 RNN 语言模型来提高视频自动生成的字幕准确性,通过对视频中自动检测到的物体或场景的条件来减少困惑度和提高转录,可以应用于机器人、人机交互及音视频存档索引等领域。