- 基于深度学习的单目图像和视频深度估计方法:综述
该论文综述了基于深度学习的单个 RGB 图像和视频的深度估计方法,包括输入输出模态、网络结构和学习方法的分类,历史里程碑,以及现有方法使用的流程、数据集和评估指标。
- PNeRV: 用于视频的多项式神经表示
通过引入多项式神经网络,本研究提出了一种针对视频的参数高效、面片级内隐神经表示的方法(PNeRV),该方法在保留空间连续性的同时,充分利用了连续时间的模糊能力,解决了视频数据领域内内隐神经表示所面临的挑战,并为先进的视频处理和分析开辟了新的 - VELOCITI:视频语言模型能否通过时间连接语义概念?
VELOCITI 是一个基于复杂电影剪辑和密集的语义角色标签注释的新基准,用于测试视频语言模型的感知和绑定能力,结果显示当前最先进的模型在感知测试上表现得相当好,但在绑定测试上的准确性接近随机,表明它们在绑定测试中失败。
- ACL深入了解视频文本模型的运动表示
通过引入生成的 GPT-4 运动描述应用于三个行动数据集并在运动描述检索任务上评估几种视频 - 文本模型,本研究探讨了视频与图片的信息性差异,着重关注视频 - 文本模型对于视频中运动的理解以及需要在现有数据集中加入细致动作信息的问题,并证明 - 看見看不見的:視覺隱喻對視頻進行標註
我们介绍了一项新的视觉 - 语言(VL)任务,描述视频中的隐喻,并提出了一个低资源视频隐喻字幕系统(GIT-LLaVA),该系统在所提出的任务上获得了与现有技术相媲美的性能。
- 阿尔忒弥斯:迈向复杂视频中的指代理解
基于视频的指代理解一直是多模态大型语言模型的一个挑战,本文提出了 Artemis,一个将视频指代理解提升到更精细层次的模型。通过提取紧凑、目标特定的视频特征,Artemis 能够根据视频中的自然语言问题和感兴趣目标的边界框完成整个视频的描述 - 面向多任务多模态模型的视频生成视角
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的 - 深度视频表示学习综述
该论文提供了对视频表示学习的综述,对于顺序视觉数据的时空特征学习方法进行分类,并比较它们在视频分析中的优缺点。
- RID-TWIN: 自动视频人脸去识别端到端流水线
我们提出了 RID-Twin,这是一个利用先进的生成模型,从综合的视角出发来处理视频中的自动脸部去识别任务的新型流程,并讨论我们的方法如何解决该领域中的相关挑战。
- 视频曼巴组合套件:状态空间模型作为视频理解的多功能替代方案
本研究通过广泛实验评估不同模型角色的 Mamba 对视频理解的潜力,探索其在视频理解领域的替代性,发现 Mamba 在仅视频和视频语言任务上展现出强大的潜力,并显示了有希望的效率 - 性能平衡,为未来的视频理解研究提供了宝贵的数据和见解。
- 一种时空对齐的 SUNet 模型用于低光视频增强
我们提出了一种 Swin Transformer 为骨干结构的时空对齐 SUNet(STA-SUNet)模型,用于捕捉低光视频特征并利用它们的时空相关性,通过在新颖统一的 BVI 数据集上进行比较分析,该模型在各个测试数据集上体现出卓越的适 - Surgment: 基于分割的语义搜索和创造性的视觉问题与反馈支持视频手术学习
通过 Surgment 系统,基于外科手术录像,外科专家可以创建带反馈的练习,用于丰富基于视频的外科手术学习体验的技术。外科医生可以通过草图检索感兴趣的帧,并设计以特定解剖组成部分为目标并提供视觉反馈的练习,以提供高教育价值的图像问题和反馈 - 基于压缩算法的数字视频篡改检测技术
提出了一种通过分析 H.264 编码使用的压缩算法的取证技术,利用宏块和运动矢量的信息来准确检测视频是否被重新压缩。
- MV2MAE:多视角视频掩码自编码器
从多视角捕获的视频可以帮助感知世界的 3D 结构,并对计算机视觉任务,如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法,通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器(MAE)框架,在同视 - 策略学习的全点轨迹建模
通过使用预训练的轨迹模型,提出了一种利用视频演示来预测视频帧内任意点的未来轨迹,从而实现对机器人进行精确控制指导,使其能够在最少的动作标记数据下学习到鲁棒的视觉运动策略。
- 文本条件下的长篇视频理解的重新采样器
使用文本条件的视频重采样器(TCR)模块和预训练的视觉编码器和大型语言模型(LLM),我们设计了一种基于 Transformer 的采样架构,可以处理长视频序列,并通过交叉注意机制,将相关的视觉特征从视频中提取出来,并通过 LLM 生成文本 - NAC-TCN: 基于因果稀疏邻域注意力的时序卷积网络用于情感理解
视频情感识别是通过一系列方法如 GRUs、LSTMs、自注意力机制、Transformers 和 TCNs 改善了基于视频情感识别,然而这些方法存在内存使用高、操作量大或梯度下降不良的问题。我们提出了一种称为邻域注意力与卷积 TCN(NAC - 素描视频合成
我们提出了一种基于优化的框架,用于绘制视频的素描,通过设置初始参数和利用语义损失和 2D 网络的一致性损失进行优化,生成具有卓越视觉抽象和时间连贯性的素描视频,为基于素描的视频编辑和视频涂鸦提供了潜在的应用。
- VKIE:视频文本关键信息提取应用
从视频中提取结构化信息,是工业界许多下游应用的关键。本文定义了从视频中的视觉文本提取分层关键信息的重要任务,并介绍了名为 PipVKIE 和 UniVKIE 的两种实现解决方案。PipVKIE 逐个连续阶段完成四个子任务,而 UniVKIE - BiLL-VTG: 融合大型语言模型和轻量级视觉工具进行基于视频的文本生成
通过使用 BiLL-VTG 框架,结合大型语言模型 (LLMs)、结构化场景图生成和描述性图像标题生成两种视觉工具,通过对特定视频事件进行多次推理步骤,实现对用户指令的文本回复,并通过 InsOVER 算法使用语言指令定位相应的视频事件,从