上下文问题:用递归神经网络提升视频中的物体检测
本文提出了一种基于注意力机制的方法,通过利用一个摄像头的未标记视频帧的时间上下文来提高该摄像头的目标检测性能,并将其应用于两种场景:使用相机陷阱的物种检测和在交通摄像头中的车辆检测。结果表明,Context R-CNN 比强基线方法获得了更好的性能,并且增加时间跨度有助于提高性能。
Dec, 2019
本文提出了一种综合局部外观特征,对象关系的上下文信息和全局场景上下文特征的集合物体检测系统,该系统采用基于对象建议的完全连接条件随机场(CRF)进行建模,并利用快速平均场近似方法有效地进行 CRF 模型中的推理,实验结果表明,与基线算法 Faster R-CNN 相比,我们的方法在 PASCAL VOC 2007 数据集上实现了更高的平均精度(mAP).
Apr, 2016
该论文提出了一种基于 DNN 技术的语音识别系统及 RNN 语言模型来提高视频自动生成的字幕准确性,通过对视频中自动检测到的物体或场景的条件来减少困惑度和提高转录,可以应用于机器人、人机交互及音视频存档索引等领域。
Dec, 2017
通过利用连续平滑的运动,我们在三个方面进行了改进:1)通过将对象运动作为额外的监督来源,从静态关键帧中预测对象位置来提高准确性。2)通过仅在少量帧中进行昂贵的特征计算来提高效率。3)通过仅注释关键帧并利用关键帧之间的平滑伪运动来减少注释成本。我们在四个数据集上展示了计算效率、注释效率和改进的均值平均精度,分别是 ImageNet VID,EPIC KITCHENS-55,YouTube-BoundingBoxes 和 Waymo Open dataset。我们的源代码可在此 https URL 找到。
Aug, 2023
本文提出一种全面的端到端视频视觉跟踪方法,利用循环卷积神经网络代理与视频进行交互,并结合强化学习算法来学习不断的关注连续帧相关性和最大化在长期内的跟踪性能,实现了比现有跟踪基准更快速的状态 - of-the-art 性能。是第一个将卷积和循环网络与强化学习算法相结合的神经网络跟踪器。
Jan, 2017
通过使用并行多维 LSTM 单元和融合单元进行数据聚合处理,提出了一种全面考虑过去背景信息的上下文感知结构,从而提高了视频预测的性能。该模型没有使用深度卷积网络、多尺度结构、分离前景和背景建模、运动流学习或对抗性训练等技术,性能超过了强基线模型并在多个领域展示了最新成果。
Oct, 2017
通过使用深度残差网络结构,利用分层预测和自上而下的连接方法,结合对抗和感性代价函数,提高了基于视频预测的性能以及更真实的图像细节和纹理,特别是在快速相机运动下,未来视频帧的预测性能优于现有基线。
Mar, 2020
本文提出了一种基于学习相似度评估的后处理方法,它可以克服先前后处理方法的一些局限性,提高特定视频检测器的结果,特别是在快速运动物体方面,并具有低资源要求。该方法还可以应用于像 YOLO 这样的高效静态图像检测器,提供与计算量更大的检测器相当的结果。
Sep, 2020
本文提出了一种名为 MaskRNN 的递归神经网络方法,它在每帧中利用两个深度成像网络输出(二元分割网络和定位网络)进行目标实例的视频对象分割以获取长时序结构和剔除异常值,结果在 DAVIS-2016、DAVIS-2017 和 Segtrack v2 数据集中均达到了最优表现。
Mar, 2018