- ECCV基于实例的身份:视频实例分割的通用在线范式
本文提出了一种新的在线视频实例分割范例,名为 Instance As Identity (IAI),通过使用新的识别和关联模块,将时态信息集成到在线模型中,成功地在三个不同的半监督挑战中超越了所有的竞争者。
- 面向点云的三维视频目标检测的图神经网络和时空变换器注意力
本文采用多帧点云视频中的时间信息来探测 3D 物体。研究者们提出了一种名为 GMPNet 的格网信息传递网络来编码短期时间信息,并提出了一个名为 AST-GRU 的基于注意力的时空变换 GRU 来进一步聚合长期帧。在 NuScenes 基准 - ECCV挖掘视频语义分割的跨帧亲和性关系
本文从挖掘帧间关联的角度出发,提出了一种使用 “Single-scale Affinity Refinement” 和 “Multi-scale Affinity Aggregation” 加强帧间亲和力的方法,该方法在视频语义分割任务中性 - MM基于点监督的弱监督视频显著目标检测
本文提出了一种基于点监督的强基线模型,通过挖掘短期和长期视角的帧间互补信息来推断具有时间信息的显着性图,并采用混合令牌注意模块和长期交叉帧注意模块分别实现。实验结果表明,该方法优于以前的最先进的弱监督方法,甚至可以与一些全监督方法媲美。
- ICML非参数因子轨迹学习动态张量分解
该研究提出了一种名为 “NONFAT” 的方法,它使用高斯过程先验和稀疏变分学习算法来实现动态张量分解,以分析伴随有时间信息的多维数据,并应用于多种实际应用中。
- 无监督声学单元发现的潜在狄利克雷分配的时间扩展
本文介绍了一种扩展 LDA 模型的方法,利用马尔可夫链来建模时间信息,从而用于语音信号的无监督单元发现。与基本的 LDA 模型相比,扩展后的模型可以更好地描述相邻单元之间的关系,从而得到更好的语音单元划分结果。
- CVPRREVECA -- 基于丰富编解码器框架的视频事件字幕生成器
本文描述了一种用于长视频理解工作坊中的通用边界事件字幕挑战的方法。我们设计了一个视频事件字幕生成器的丰富编 - 解码器框架 (REVECA),该框架利用视频的时空信息来生成相应的事件边界字幕。REVECA 利用帧位置嵌入来合并事件边界前后的 - 具有时间感知的快速动态辐射场神经体素
介绍了一种称为 TiNeuVox 的辐射场框架,通过时间感知体素特征表示场景,进一步强化了时间信息,提出了多距离插值方法,以模拟小和大的动作,加快了动态辐射场的优化,并在合成和真实场景上经过实证评估,表现出与之前动态 NeRF 方法相似甚至 - VFHQ: 一个高质量的视频人脸超分辨率数据集和基准
本论文开发了一个自动和可扩展的管道来收集高质量的视频脸部数据集(VFHQ),并证明基于 VFHQ 训练的视频面部超分辨率(VFSR)模型可以产生比基于 VoxCeleb1 训练的模型更锐利的边缘和更细的纹理,同时时序信息在消除视频一致性问题 - TimeBERT:用时间信息扩展预训练的语言表示
该研究探究了在预训练中引入时间信息以提高 NLP 和 IR 任务性能的方法,使用长跨度的新闻文章作为训练语料库,提出了 TimeBERT,并且 TimeBERT 在时间相关任务上表现优异,超过了 BERT 和其他预训练模型。
- CVPR视频实例分割的时间高效视觉 Transformer
提出了一种名为 TeViT 的视觉 Transformer,它在视频实例分割任务中高效地对关键的时间信息进行建模,并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。
- CVPR利用雷达感知的时间关系进行自动驾驶
本文研究了利用汽车雷达传感器进行自动驾驶中的目标识别问题,在考虑到雷达传感器在所有天气条件下的高成本效益和鲁棒性的基础上,探索利用自我中心鸟瞰雷达图像帧的时间信息进行雷达目标识别。通过提出一个时空关系层,显式地对随后雷达图像内的物体之间的关 - 基于用户活动中心的社交影响力用于兴趣点推荐
该论文使用矩阵分解技术将社交、地理和时间信息纳入推荐系统中,增加了友谊算法和活动中心,从而提高了 POI 推荐系统的性能。实验结果表明,该模型在真实世界数据集上优于现有技术,精确率提高了 31% 和 14%。
- CVPRStyleGAN-V:具备 StyleGAN2 的价格、图像质量和特点的连续视频生成器
本文基于神经表示方法设计了一个连续时间视频生成器,提出了基于位置嵌入设计连续运动表示的思想,构建了一个聚合时间信息的完整判别器,使用该方法可以以更少的训练成本直接训练 1024x1024 的视频,并取得了优于其他同类工作的生成效果。
- ECCVSeqFormer: 序列 Transformer 用于视频实例分割
本文介绍了 SeqFormer,一种基于视频实例分割的模型,通过注意力机制捕捉视频帧之间的关系,定位每帧的实例并聚合时间信息,从而实现自然的实例跟踪并预测动态遮罩序列,结合 Swin Transformer 可获得更高的 AP,是视频实例分 - ECCV促使视觉 - 语言模型实现高效视频理解
本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型,并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练,通过几个随机向量连续提示向量进行优化,将视频相关任务转化为与预训练目标相同的格式。对于行动识别 - CVPRMS-TCT: 多尺度时间卷积转换器用于动作检测
我们提出了一种基于 ConvTransformer 网络的行动检测方法,通过三个组件(时间编码器、时间尺度混合器和分类器)高效地捕捉视频中的短期和长期时间信息,实验表明该方法在 Charades、TSU 和 MultiTHUMOS 数据集上 - ICLR从一般时间数据中学习暂态因果潜在过程
通过时间信息学习潜在因果变量的变化规律,使用因果过程先验引入约束来实现条件满足,达到从非线性混合数据中可靠地识别因果潜在过程的目的。
- ICCV利用时空语义一致性进行视频场景解析
本文提出了一种空间 - 时间语义一致性方法,通过采用空间 - 时间一致损失和伪标记策略来捕捉类别独有的上下文信息,从而改善视频场景解析的一致性和准确性,该方法在 VSPW 挑战赛中获得了第一名,开发(测试部分 1)和测试集上的 mIoU 分 - TF-Blender:视频目标检测的时序特征融合器
TF-Blender 通过建模低级别的时间关系来增强特征表示,从而有效地解决了视频异议检测的挑战。