医学超声视频识别中时间特征的相关性研究
本研究通过优化设计网络结构,系统地探讨了关键网络设计选择,包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等,进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快,而且在行动分类基准测试(Kinetics、Something-something、UCF101 和 HMDB)以及两个行动检测(本地化)基准测试(JHMDB 和 UCF101-24)中的分类效果也比其他方法更有竞争力。
Dec, 2017
通过 TUNeS 模型,结合上下文感知的计算机辅助、注意力机制和时序建模,可以在未来手术室中实现自动识别医疗团队正在执行的手术阶段,并在考虑长期时序特征的情况下达到 Cholec80 数据集上的最佳结果。
Jul, 2023
该文综合研究和比较了视频人员重识别的四种不同的时间建模方法,包括时间汇聚,时间关注,RNN 和 3D 卷积神经网络,并提出了一个采用时间卷积的注意力生成网络,用于在帧之间提取时间信息。在 MARS 数据集上进行评估,并通过一大部分超越了最新技术的方法。
May, 2018
通过使用 3D CNN 建立时空特征提取模型,我们提出了一种新的深度伪造视频检测方法,相比于现有方法能更准确地进行分类,并且经过测试表现出更强的通用能力。
Oct, 2020
本文研究通过建立基于人类视觉注意的模型来学习图像的可转移表示,以取代直接学习类标签所造成的图像理解的简化。通过在超声视频中预测视觉显著性或注视点回归,利用卷积神经网络从注视数据集中学习视觉注意模型,并评估该模型在超声标准平面检测任务中的可迁移性。实验表明,在有限标记的场景下,微调视觉显著性预测器优于随机初始化,平均 F1 分数整体提高 9.6%,对于心脏平面提高了 15.3%。另外,该学习方法生成的表示发现是可靠的,在近乎监督的基准模型的精度上接近。
Mar, 2019
本研究基于深度学习和视觉归纳先验,提出一种在视频数据上进行时空数据扩充与学习的方法,即 “时序扩充”,以提高视频识别性能和鲁棒性。通过这种方法,能够在更少的训练数据上,实现超越空间扩充算法的识别效果,并实现无法用空间算法实现的时序本地化特征学习。
Aug, 2020
在手术视频中进行语义分割在术中导航、术后分析和手术教育方面有应用价值。我们提出了一种用于建模视频时间关系的新架构,通过改善帧之间的时间一致性以提高视频语义分割精度,并在两个数据集上验证了其性能提升。
Jun, 2023
该研究提出了一种自动描述以及指导超声(US)胎儿心脏视频图像解释的有用信息的方法,使用卷积神经网络与锚机制及 IoU 误差进行多任务预测和位置精确定位,最终能够精准地描述困难 US 视频中详细的心脏参数,实现与专家注释相当的性能,研究在临床数据集上进行。
Jul, 2017
本文介绍了一种使用深度学习技术自动提取面部表情识别所需信息特征的方法,通过两个不同的深度学习模型使得我们在 CK + 和 Oulu-CASIA 数据库上,获得了优于其他现有方法的性能表现。
Mar, 2015