ACLMar, 2015

使用文本、语音和视觉解读烹饪视频

TL;DR本研究提出了一种利用隐马尔可夫模型与深度卷积神经网络对菜谱中的指示语音逐一进行对齐的方法,在烹饪方面取得了较好的效果,可实现自动加入关键帧及视频事件搜索等功能。