- VioLA:将视频与 2D LiDAR 扫描对齐
研究通过建立语义地图和利用图像序列与 LiDAR 扫描进行地点对齐的问题。提出了一种名为 VioLA 的方法,在固定高度提取用于注册到 LiDAR 地图的点。使用预训练的文本到图像修复模型和深度补全模型填补缺失的场景内容以支持姿态注册。在两 - 融合编码的自动编码器作为时空学习者
本文介绍了链接蒙版自动编码器(CatMAE)作为自我监督视频表示学习的时空学习器,该方法使模型能够估计可见补丁之间的运动信息,匹配前后帧之间的对应关系,并最终学习场景的演变。此外,还提出了一种新的数据增强策略,ViRe,进一步鼓励模型利用连 - 面向美国手语的基于语言的计算机手势识别的挑战
电脑识别视频中孤立符号存在着一些困难,其中包括手语者之间的口头和非口头的同步变化以及特定符号的实现中存在的社会语言学变化。本文概述了这些挑战,并基于大规模的语言学注释视频数据的发现,对美国手语的符号结构中的某些规律进行了讨论。
- 提高视频深度伪造检测:一种基于 DCT 的补丁级分析方法
通过从离散余弦变换 (DCT) 中提取 Beta 分量并将其用作标准分类器的输入,从而快速识别合成内容并确定视频的性质,该方法在福全学的角度上具有又快又可解释性,不需要太多计算力。
- LiveChat: 从视听多模态环境生成视频评论
通过创建大规模的音视频多模式对话数据集,以促进直播评论技术的发展,我们还提出了一种能够生成与视频中的时空事件以及正在进行的多模式对话上下文相吻合的实时评论的新颖多模式生成模型。
- ToonTalker:跨领域人脸再现
本文提出了一种用于无配对数据的跨领域面部重现方法,通过转换器为不同领域中的动作在共同的潜变量空间进行对齐和转移,采用两个特定领域的运动编码器和可学习的运动基础记忆单元进行特性捕捉,并通过类比约束使用两个领域的数据进行新颖的跨领域训练方案,实 - 学习生成寂静视频的逼真音频的初步探索
通过深度学习的框架及改进的人工音频生成技术,本研究旨在生成与视频相符的逼真音频效果。尝试了多种模型结构,其中基于 Transformer 的架构效果最为优秀,能有效地匹配低频的视觉模式,但在生成细微波形方面表现不佳。
- ICCV递归视频车道检测
提出了一种递归视频车道检测器(RVLD)的新算法,该算法将当前帧的状态递归地传播到下一帧,利用内部帧车道检测器(ILD)和预测车道检测器(PLD)来检测视频中的道路车道,并通过估计运动场并将先前的输出扭曲到当前帧来提高当前帧的车道检测准确性 - 深度伪造检测领域的最新进展
调查和分析当前深度伪造检测领域的各种方法和进展,以解决恶意深度伪造创建和缺乏普适性深度伪造检测方法的问题。
- ICCV基于多模态运动条件扩散模型的基于骨架的视频异常检测
该研究提出一种基于生成模型的视频异常检测方法,利用骨骼表示和扩散概率模型生成多模态人体姿势,并通过统计聚合的未来模态检测异常,其在四个基准测试中均取得优于现有技术的表现。
- 点云在提取视频目标特征中的应用
本文提出了一种基于点云数据处理的标记任意视频目标的方法,可以提取视频检测目标的轮廓特征,转化为长度为 256 的可检索特征向量,通过算法提取该特征向量,用作视频检测目标的可检索特征。
- 通过对抗训练的分解人体动作先验用于视频姿态估计
通过将运动先验以对抗的方式整合进来,本文针对神经网络模型在人体姿态回归中要求对身体运动先验的作用进行了探索和研究,并证明了该算法在 3D 领域中具有较高的鲁棒性和准确性。
- OpenVIS: 开放词汇视频实例分割
本研究提出和研究了一项新的计算机视觉任务,名为 OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS 可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一 - 检测任意阴影:视频阴影检测中的物体分割
本研究使用少量的用户协助,利用阴影数据和稀疏提示对 Segment anything model 进行微调,再结合长短期注意机制扩展其能力,使其可以用于视频阴影检测,与现有技术相比,实验结果表明,该方法在 MAE 和 IoU 方面分别提高 - ViDaS 视频深度感知显著性网络
本文介绍了一种称为 ViDaS 的全卷积双流深度感知显著性网络,使用 RGB 和深度流作为输入,利用编码器 - 解码器模型获得显著性图来预测人类在 “野外” 环境中的注意力,经过在多个不同数据库中的测试和评估,该方法在大多数情况下优于现有的 - 基于语义对应的时序一致自动视频上色
该研究提出了一种新的视频着色框架,它将语义对应引入自动视频着色中以保持长程一致性,通过自动着色参考图像来监督整个着色过程,并且引入了语义对应网络和图像着色网络以保持临近帧和长期帧的时间一致性,实验证明该方法在维持时序一致性方面优于其他方法。
- 分割和追踪任何事物
该报告介绍了一种名为 SAMTrack 的框架,它允许用户精确有效地分割和跟踪视频中的任何物体,同时使用多模态交互方法对选择的多个物体进行追踪,可以在无人机技术、自动驾驶、医学成像、增强现实和生物分析等领域中使用。SAM-Track 将交互 - 一石二鸟:图像和视频风格转换联合学习的统一框架
本文介绍了一种基于统一风格转移框架 UnST 和领域交互变压器(DIT)的方法,使得同时能实现对图像和视频完成风格转移任务。实验表明 UniST 在图像和视频领域中与现有方法相比表现更佳,通过简单而有效的轴向多头自我关注(AMSA)获得更高 - SegGPT:上下文中的所有内容分割
SegGPT 是一个通用的模型,通过将各种分割任务转换为图像格式,将多个分割任务统一为一个框架,并通过随机颜色映射的上下文涂色问题进行训练。该模型可以在图像或视频分类下进行任意分割任务,并在各种任务中表现出强大的能力,包括少样本语义分割、视 - CVPR探测三级、高级和长跳运动员身体上的任意关键点
该论文研究了基于视频的运动表现分析,提出了一种基于 Transformer 的方法进行运动员身体姿态的关键点检测。