自闭症谱系障碍婴儿未修整视频中行为瞬间的本地化

Apr, 2024

自闭症谱系障碍婴儿未修整视频中行为瞬间的本地化

Localizing Moments of Actions in Untrimmed Videos of Infants with Autism Spectrum Disorder

Halil Ismail Helvaci, Sen-ching Samson Cheung, Chen-Nee Chuah, Sally Ozonoff

TL;DR采用机器学习技术和自注意力的时间动作定位模型，针对自闭症谱系障碍（ASD）的幼儿视频，发展了简化复杂建模和强调效率的 ASD 行为识别方法，为 ASD 筛查提供了有前景的早期干预和支持方案，成为首个实施未剪辑的 ASD 幼儿视频中端到端时态行动定位的研究。

Abstract

autism spectrum disorder (ASD) presents significant challenges in early diagnosis and intervention, impacting children and their families. With prevalence rates rising, there is a critical need for accessible and efficient screening tools. Leveraging →

autism spectrum disorder machine learning temporal action localization asd screening infant videos

发现论文，激发创造

动作敏感度学习用于时间动作定位

本研究提出了一种 Action Sensitivity Learning 框架，旨在识别和定位动作示例，并通过轻量级的 Action Sensitivity Evaluator 和 Action Sensitive Contrastive Loss 实现对应的学习和训练。实验结果表明，该框架在多种场景下均优于现有技术，达到了最高的平均 mAP 值。

May, 2023

无监督的时序动作定位：基于自主学习的渐进式学习

提出了一种新颖的自适应递增学习模型，通过改进聚类置信度和可变速增量实例学习策略的设计，提高无监督时间动作定位的效果。

Dec, 2023

测试时零样本时序动作定位

通过引入一种新的方法 (T3AL)，该方法对 Temporal Action Localization (TAL) 进行 Test-Time adaptation，并采用自我监督学习的启发式程序进行动作区域定位，使用最先进的字幕模型提取的帧级文本描述进一步完善动作区域提案，实验证明 T3AL 在 THUMOS14 和 ActivityNet-v1.3 数据集上明显优于基于最先进视觉语言模型的零样本方法，证实了测试时间自适应方法的益处。

Apr, 2024

基于深度学习的视频自闭症检测

自闭症谱系障碍 (ASD) 对儿童的生活常常造成困难，因此早期诊断对于正确的治疗和关怀是必要的。为了帮助医疗专业人员早期发现，我们提出了一种分析儿童对感官刺激反应的深度学习模型，旨在捕捉 ASD 和非 ASD 患者之间反应和行为的关键差异。与许多 ASD 分类中的研究不同，我们的数据是由 MRI 数据组成，这需要昂贵的专用 MRI 设备，而我们的方法仅依赖于一台相对较便宜的 GPU、一套不错的计算机配置和一个用于推断的视频摄像机。我们的数据结果表明，我们的模型能够很好地进行泛化并理解患者不同运动之间的关键差异，尽管对于深度学习问题的数据量有限，模型输入上有限的时间信息和因运动而产生的噪音。

Feb, 2024

动作搜索：在视频中识别动作及其在时间动作定位中的应用

本文提出了基于观察视频小部分来查找视频中特定动作的新问题：视频中的动作识别，并使用递归神经网络模仿人类查找动作的方式，同时建立了 Human Searches 数据集，从中得到人类注释者的行为数据，用于解决动作识别中缺乏数据的问题，实验表明，该模型不仅能够在观察视频的平均 17.3％的情况下高效地探索视频，还能以 30.8％的平均精度准确地找到人类活动。

Jun, 2017

基于自然对抗性互相正则化的自下而上时域动作定位

本文针对时间行为定位（TAL）在不带剪辑的视频中查找特定动作片段方面，深入研究了现有方法在模拟这些阶段时，忽略了它们之间的潜在时间约束。作者提出了 IntraC 和 InterC 两个正则化项，使整个框架可以在端对端优化过程中适应这些潜在约束条件，并在 THUMOS14 和 ActivityNet1.3 两个流行的 TAL 数据集上进行了实验。结果表明，本方法在定量和定性上都优于基线，并且所提出的正则化方法还可以推广到其他 TAL 方法（例如，TSA-Net 和 PGCN）。

Feb, 2020

基于提议的时间动作定位与点级监督

提出了一种用于点级别监督时序动作定位的新方法，通过生成和评估具有灵活时长的动作提案来定位动作，利用聚类算法生成密集伪标签提供更强的监督，并利用精细的对比损失进一步提高伪标签的质量，实验证明该方法在多个基准数据集上达到了与最先进方法相媲美甚至更好的性能。

Oct, 2023

TALL: 通过语言查询进行时间活动定位

本文提出了一种使用自然语言查询来进行时间活动定位的方法，使用融合文本和视频特征的方法实现跨模态匹配，并采用后期处理技术进行结果的精确定位，实验结果验证了该方法的有效性。

May, 2017

LocATe: 3D 中基于 Transformer 的全流程动作定位

提出了 LocATe 方法，一种全新的、端到端的 3D-TAL 方法，同时定位和识别 3D 运动中的动作，并用稀疏注意力处理高维输入，能够更好地捕捉动作之间的长期关联，并优于当前最先进的 3D-TAL 方法，在现有的 PKU-MMD 3D-TAL 基准上实现了 93.2％的 mAP，同时提出了一种具有挑战性和更实际的基准数据集 BABEL-TAL-20（BT20）。

Mar, 2022

基于时间提案演化的精准时间动作定位

提出了一个基于三阶段框架的行动定位方法，包括一个 Actionness 神经网络来生成初始提议，一个 Refinement 网络来进行边界调整，以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优异，尤其是在高 IoU 阈值下的精确定位方面表现出色，mAP@IoU=0.5 达到 34.2%。

Apr, 2018