自闭症谱系障碍婴儿未修整视频中行为瞬间的本地化
本研究提出了一种 Action Sensitivity Learning 框架,旨在识别和定位动作示例,并通过轻量级的 Action Sensitivity Evaluator 和 Action Sensitive Contrastive Loss 实现对应的学习和训练。实验结果表明,该框架在多种场景下均优于现有技术,达到了最高的平均 mAP 值。
May, 2023
通过引入一种新的方法 (T3AL),该方法对 Temporal Action Localization (TAL) 进行 Test-Time adaptation,并采用自我监督学习的启发式程序进行动作区域定位,使用最先进的字幕模型提取的帧级文本描述进一步完善动作区域提案,实验证明 T3AL 在 THUMOS14 和 ActivityNet-v1.3 数据集上明显优于基于最先进视觉语言模型的零样本方法,证实了测试时间自适应方法的益处。
Apr, 2024
自闭症谱系障碍 (ASD) 对儿童的生活常常造成困难,因此早期诊断对于正确的治疗和关怀是必要的。为了帮助医疗专业人员早期发现,我们提出了一种分析儿童对感官刺激反应的深度学习模型,旨在捕捉 ASD 和非 ASD 患者之间反应和行为的关键差异。与许多 ASD 分类中的研究不同,我们的数据是由 MRI 数据组成,这需要昂贵的专用 MRI 设备,而我们的方法仅依赖于一台相对较便宜的 GPU、一套不错的计算机配置和一个用于推断的视频摄像机。我们的数据结果表明,我们的模型能够很好地进行泛化并理解患者不同运动之间的关键差异,尽管对于深度学习问题的数据量有限,模型输入上有限的时间信息和因运动而产生的噪音。
Feb, 2024
本文提出了基于观察视频小部分来查找视频中特定动作的新问题:视频中的动作识别,并使用递归神经网络模仿人类查找动作的方式,同时建立了 Human Searches 数据集,从中得到人类注释者的行为数据,用于解决动作识别中缺乏数据的问题,实验表明,该模型不仅能够在观察视频的平均 17.3%的情况下高效地探索视频,还能以 30.8%的平均精度准确地找到人类活动。
Jun, 2017
本文针对时间行为定位(TAL)在不带剪辑的视频中查找特定动作片段方面,深入研究了现有方法在模拟这些阶段时,忽略了它们之间的潜在时间约束。作者提出了 IntraC 和 InterC 两个正则化项,使整个框架可以在端对端优化过程中适应这些潜在约束条件,并在 THUMOS14 和 ActivityNet1.3 两个流行的 TAL 数据集上进行了实验。结果表明,本方法在定量和定性上都优于基线,并且所提出的正则化方法还可以推广到其他 TAL 方法(例如,TSA-Net 和 PGCN)。
Feb, 2020
提出了一种用于点级别监督时序动作定位的新方法,通过生成和评估具有灵活时长的动作提案来定位动作,利用聚类算法生成密集伪标签提供更强的监督,并利用精细的对比损失进一步提高伪标签的质量,实验证明该方法在多个基准数据集上达到了与最先进方法相媲美甚至更好的性能。
Oct, 2023
本文提出了一种使用自然语言查询来进行时间活动定位的方法,使用融合文本和视频特征的方法实现跨模态匹配,并采用后期处理技术进行结果的精确定位,实验结果验证了该方法的有效性。
May, 2017
提出了 LocATe 方法,一种全新的、端到端的 3D-TAL 方法,同时定位和识别 3D 运动中的动作,并用稀疏注意力处理高维输入,能够更好地捕捉动作之间的长期关联,并优于当前最先进的 3D-TAL 方法,在现有的 PKU-MMD 3D-TAL 基准上实现了 93.2%的 mAP,同时提出了一种具有挑战性和更实际的基准数据集 BABEL-TAL-20(BT20)。
Mar, 2022
提出了一个基于三阶段框架的行动定位方法,包括一个 Actionness 神经网络来生成初始提议,一个 Refinement 网络来进行边界调整,以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优异,尤其是在高 IoU 阈值下的精确定位方面表现出色,mAP@IoU=0.5 达到 34.2%。
Apr, 2018