Apr, 2015

紧凑型卷积神经网络用于自我中心视频索引

TL;DR本文提出了一种用于长期活动识别的紧凑型 3D 卷积神经网络(CNN)体系结构,通过使用稀疏光流体积作为输入,就能分类相机佩戴者的活动,从而实现了对非结构化第一人称视角视频的时间分割和分类,分类准确度达到 89%,并超过当前最先进技术 19%,此外还能识别视频是否为第一人称视角,准确度高达 99.2%,比当前最先进技术高 24%。