- CVPRObjectNLQ @ Ego4D Episodic Memory Challenge 2024
本文介绍了我们在 CVPR 2024 的 Ego4D Episodic Memory Benchmark 中,对于自然语言查询和目标步骤的研究领域的方法。我们的方法不仅处理了视频的时间信息,还在帧内空间上识别了细粒度对象,通过引入 Obje - 从链接预测到预测:基于批次的时间图学习中的信息损失
本研究通过重新构建动态连接预测作为链接预测任务,更好地考虑了数据中的时间信息,解决了常见评估方法引起的模型性能不准确和方法公平比较困难的问题。
- 基于预训练扩散模型的零样本视频语义分割
我们引入了第一个基于预训练扩散模型的零样本视频语义分割方法,该方法在各种视频语义分割基准测试中明显优于现有的零样本图像语义分割方法,并且在 VSPW 数据集上与有监督的视频语义分割方法不相上下,尽管它没有经过显式的 VSS 训练。
- 动态图神经网络综述:模型、框架、基准、实验与挑战
本文通过对 81 个动态 GNN 模型、12 个动态 GNN 训练框架和常用基准进行了全面的比较分析和实验评估,在对六个标准图数据集上测试了九个代表性的动态 GNN 模型和三个框架。评估指标包括收敛精度、训练效率和 GPU 内存使用情况,从 - VimTS:用于增强跨领域泛化能力的统一视频和图像文本识别器
通过集成多任务模型、合成视频文本数据集和学习时序信息,VimTS 模型在跨领域场景文本检测任务中展现出卓越的性能,并且相较于现有的大型多模态模型,所需参数和数据更为少。
- 基于时空侧调整预训练基础模型的视频行人属性识别
利用视频帧进行行人属性识别,通过精调预训练的多模态基础模型充分利用时间信息,采用视觉 - 语言融合策略和时空调参策略实现参数高效优化,通过多模态交互学习实现行人属性预测。
- T-CLAP:时间增强对比语言 - 音频预训练
使用大型语言模型和混淆策略生成音频剪辑的时序对比性描述,并设计新的时序对比损失函数来改进对比性语音 - 文本预训练模型 (T-CLAP),结果在多个下游任务中显示出更强的捕捉音频事件时序关系的能力并显著超越了最先进的模型。
- 适应时间:自然为何演化出多样的神经元
通过改变丰富的时间参数,如时间常数和延迟,我们展示了网络在处理具有时间结构的任务时更加轻松和稳健的能力,并且在处理输入和权重中的噪声时,调整时间参数的优势将在神经形态学硬件设计中发挥作用。
- CVPR二值化低光原始视频增强
最近,深度神经网络在低光原始视频增强方面取得了出色的性能。然而,它们通常具有高计算复杂性和大内存成本,限制了在资源有限设备上的应用。本文探讨了将极其紧凑的二值神经网络(BNN)应用于低光原始视频增强的可行性,并解决了融合时间信息和二值卷积之 - 用于在线部署适用的真实推断算法验证数据集
通过收集真实世界众包平台上的大量数据样本,本文分析了数据集的特征并评估了几种代表性真实标签推断算法的有效性,为跟踪不同类型任务下工作者的能力随时间变化以及增强在线真实标签推断提供了启示。
- 纠正运动的移动平均:包含事后时间信息以改善视频分割
本论文提出一种在任何分割模型中引入时间信息的方法,从而提高视频分割性能,无需训练过程中的改动或额外标注,并通过使用光流计算进行运动校正的移动平均方法,在公开数据集和内部内窥镜数据集上展示了改进。
- 评估大型语言模型中的时间信息和推理技能
大型语言模型对于时间信息的推理和保留能力仍然有限,本论文通过在一个大规模时间数据集(TempUN)上实验,揭示了在时间保留和推理能力方面存在的显著局限。有趣的是,闭源模型更频繁地显示出知识缺口,可能表明在不确定性意识和错误响应之间存在折衷。 - QuEST: 低比特扩散模型量化的高效选择性微调
通过优化活化分布和关键量化层,本文解决了低位量化对扩散模型性能的影响,并在各种位宽设置下实现了最先进的高分辨率图像生成。
- MUSTAN: 面向稳健视频前景分割的多尺度时间上下文注意力
视频前景分割是一项重要的计算机视觉任务,本文利用视频数据中的时空信息和空间线索改进了模型的性能,提出了深度学习架构,并引入了 Indoor Surveillance Dataset 以验证其有效性。
- 位置编码帮助递归神经网络处理大词汇量
该研究讨论位置编码对递归神经网络(RNN)的影响,利用合成基准测试。位置编码在时间序列中 “时间戳” 数据点,并且补充了 Transformer 神经网络的能力,因为其缺乏表示数据顺序的内在机制。与此相反,RNN 可以自行对数据点进行时间信 - 跨时空的朋友:多尺度行动分割变压器用于手术阶段识别
现代手术室和在线手术视频评估平台中,自动手术阶段识别是一项核心技术。本文介绍了用于离线和在线手术阶段识别的多尺度动作分割变换器(MS-AST)和多尺度动作分割因果变换器(MS-ASCT),利用了空间和时间信息,在不同尺度上建模了时间信息,并 - 利用时间中的偏移序列增强恶劣天气下的激光雷达目标检测
本研究通过处理由激光雷达传感器生成的连续数据样本,研究了增强激光雷达目标检测鲁棒性的各种策略,利用时间信息改进模型,对不利天气下的激光雷达点云进行了实验评估,发现通过引入序列帧之间的时间偏移进行数据增广的新方法,比基准模型(基于柱的目标检测 - Sports-QA:一项针对复杂和专业体育的大规模视频问答基准测试
本文介绍了第一个专门设计用于体育视频问答任务的数据集 ——Sports-QA 数据集,并提出了一种新的自动聚焦 Transformer(AFT),用于自动关注在问题回答中特定时间尺度的信息,通过对 Sports-QA 数据集的广泛实验研究, - 具有模态提示的时间自适应 RGBT 跟踪
提出了一种新型的时域自适应 RGBT 跟踪框架 TATrack,该框架通过在线更新模板和跨模式交互,综合利用时空信息和多模态信息进行目标定位,并在三个常用 RGBT 跟踪基准上取得了最先进的性能。
- 上下文增强的单图像目标检测转换器
我们提出了一种新颖的单图像目标检测方法,称为 Context Enhanced TRansformer (CETR),通过将时间上下文引入 DETR 并使用新设计的内存模块。