提出了一个针对时间行为分割任务的有效框架 ASRF,包含长期特征提取器和二个支路:Action Segmentation Branch 和 Boundary Regression Branch。这个框架通过预测行为界限来细化行为分类的输出,可以在三个具有挑战性的数据集上实现性能提升。
Jul, 2020
本文提出一种名为 VCSR 的跨模态因果关系推理框架,通过因果分析发现视频中关键的因果事件,解决了现有视频问答方法在识别视觉证据和问题方面的失败。实验表明,该方法在视频问答中表现出卓越的性能。
May, 2023
该论文提出了一种基于增强学习的端到端流媒体视频时态行为分割方法 (SVTAS-RL),它将时态行为分割任务作为一种行为段聚类任务,通过引入强化学习来缓解优化目标和方向不一致的问题,实验结果表明 SVTAS-RL 模型在多个数据集上与最先进的时态行为分割模型相媲美,并在超长视频数据集 EGTEA 上展示出更大的优势,因此该方法能够取代所有当前的时态行为分割模型,尤其适用于长视频时态行为分割任务。
Sep, 2023
本文提出了一种新的上下文感知自监督学习架构(CASA), 该架构基于现成的人体姿态估计器,以解决视频中人类动作时间对齐的问题。CASA 通过引入自注意力和交叉 - 注意机制,结合人类活动的时空上下文,有效地解决了时间间断性的问题,并通过 4D 姿势表示的新颖增强技术来增强其自监督学习方案,实验结果表明,在三个公共数据集上,CASA 方法显著提高了相位进度和 Kendall Tau 得分比之前的最先进方法。
Apr, 2022
现代手术室和在线手术视频评估平台中,自动手术阶段识别是一项核心技术。本文介绍了用于离线和在线手术阶段识别的多尺度动作分割变换器(MS-AST)和多尺度动作分割因果变换器(MS-ASCT),利用了空间和时间信息,在不同尺度上建模了时间信息,并成功达到了 95.26% 和 96.15% 的 Cholec80 数据集在线和离线手术阶段识别准确率,达到了最新研究成果的水平。此外,在视频动作分割领域的非医学数据集上,该方法也取得了最先进的结果。
Jan, 2024
本文提出了一种新颖的本地 - 全局注意力机制来解决行动分割中过度分割问题,同时通过时间金字塔扩张和池化来实现高效多尺度关注,将个体识别与时间推理解耦,并通过行动对齐模块来融合不同的粒度级别预测,从而实现更精确和更平滑的行动分割, 在 GTEA 和 Breakfast 数据集上取得了最先进的准确性。
Apr, 2023
通过最大化得分函数,使用 EM 算法学习各种制度中的线性或非线性因果关系,我们引入了 CASTOR,这是一个专门设计用于学习异构时间序列数据中的因果关系的新框架。
Nov, 2023
本文提出了一种名为 ASFormer 的高效 Transformer 模型,通过加入局部连接归纳先验、应用预定的分层表示模式和精心设计的解码器来解决应用 Transformer 模型于动作分割任务时遇到的问题,并在三个公共数据集上进行了广泛实验。
Oct, 2021
提出了一种基于完全连接的时间条件随机场模型,用于推理各个活动方面,包括对象、动作和意图,其中潜在函数由深层网络预测;而异步变分推理方法使得高效的端到端训练成为可能,该方法在 Charades 基准测试中达到了 22.4%的分类 mAP,超过了现有技术 (17.2%mAP)。
Dec, 2016
通过使用 BaFormer 方法,本研究提出了一种基于时间段分类的新视角,以实现高效的动作分割,过程中运用了 Transformer 的优势,将每个视频段作为实例标记,并赋予了内在的实例分割能力,通过使用全局查询进行类别无关的边界预测,得到连续的时间段建议。
May, 2024