- 医学时间序列的事件对比学习
通过引入基于事件的对比学习(EBCL)方法,本文提出了一种用于学习保留关键指标事件之前和之后的异构患者数据的嵌入的方法,并证明相比不利用关键医学事件周围的时间信息的其他表示学习方法,EBCL 产生的模型在包括 30 天再住院、1 年死亡率和 - 生成用于开放词汇视频动作识别的动作条件提示
通过创新地将视频模型与大型语言模型相结合,本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识,从而在开放词汇视频动作识别中实现了新的最佳性能,并具有优越的可解释性。
- 基于视频的可见光红外人员再识别与辅助样本
本研究提出了一种可匹配可见光和红外相机捕捉的人物的可视红外人物再识别方法(VI-ReID),旨在实现 24 小时监控系统中的人物检索和跟踪。通过构建大规模 VI-ReID 数据集 BUPTCampus,本研究为该领域的进一步研究提供了基础, - 在现实世界中探索时间粒度对动态链接预测的影响
通过广泛的实验,我们研究了训练动态图神经网络时时间粒度对性能和鲁棒性的影响,发现复杂的记忆机制和合适的时间粒度对于在动态链接预测任务中获得竞争力和鲁棒性的动态图神经网络至关重要。我们还讨论了考虑模型和数据集中的局限性,并提出了未来关于时间图 - EMNLPTempTabQA:面向半结构化表格的时间问题回答
通过引入半结构化表中的时间问题回答任务,并使用 TempTabQA 数据集评估现有模型的时间推理能力,我们观察到即使是表现最好的 LLMs 在 F1 得分上也比人类表现差 13.5 个百分点以上,因此我们的数据集有潜力成为改进 NLP 模型 - 自适应增强对比的时态图表示学习
提出了一种新颖的 Temporal Graph representation learning with Adaptive augmentation Contrastive (TGAC) 模型,该模型通过将先验知识与时间信息相结合,对时态图 - ICCVMemorySeg:基于潜在记忆的在线 LiDAR 语义分割
本文提出了一种利用过去帧信息改善当前帧预测的基于 LiDAR 点云时序的语义分割模型,通过使用记忆网络存储、更新和检索过去信息,并在点云邻域中惩罚预测变化,构建稀疏的 3D 潜在表示来克服遮挡等限制,实验证明该方法在 SemanticKIT - EMNLP精确放射学报告生成的动态疾病进展推理
利用动态疾病进展推理生成精准准确的放射学报告,结合历史记录、时空信息和放射学图像,利用疾病进展图和动态进展推理机制,精确选择每个观察和进展的属性。
- 轻量级循环分组注意力网络用于视频超分辨率
我们提出了一种新颖的轻量级循环分组注意力网络,用于视频超分辨率的研究,实验证明我们的模型在多个数据集上达到最先进的性能。
- TMac: 音频事件分类的时间多模态图学习
我们提出了一种基于时态多模态图学习技术的音频事件分类方法 TMac,通过建模这种时态信息,我们构建了每个音频事件的时态图,通过利用图学习技术来捕捉模态内部和模态间的动态信息,实现了优于其他最先进模型的性能。
- TFNet: 基于时间线索的快速准确 LiDAR 语义分割
本文提出了一种基于 TFNet 的 LiDAR 语义分割方法,利用时间信息来解决范围图像有限的角度分辨率引起的 “一对多” 问题,并设计了一种基于最大投票的后处理技术来纠正错误预测。在两个基准测试和三种模态的七种主干网络上的实验证明了我们方 - ICCV多模态神经辐射场对于带有轻量化 ToF 传感器的单目密集 SLAM
通过使用轻量级 ToF 传感器的信号,结合多模式隐式场景表示、粗糙到精细的优化策略和时间信息处理,该研究提出了一种用于相机追踪和稠密场景重建的稀疏光准测距技术,取得了良好的结果。
- ICCVSVQNet:用于 4D 时空 LiDAR 语义分割的稀疏体素邻近查询网络
基于我们的观察,将所有的历史点堆叠会损害性能,因为有大量多余和误导性信息,我们提出了用于 4D 激光雷达语义分割的稀疏体素相邻查询网络(SVQNet),通过将历史点分成两组来充分利用历史帧的高效性,一组是携带局部增强知识的体素相邻邻域,另一 - 关于少样本动作识别中空间关系的重要性
通过整合空间关系和时间信息,本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT),并利用预训练模型进一步提升性能。
- 图像和视频的三维人体姿态估计的双链约束
本文提出了一种名为 Double-chain Graph Convolutional Transformer (DC-GCT) 的新模型,通过局部到全局和全局到局部的双链设计来约束姿势,并结合 GCN 和 Transformer 的优势以及 - 通向通用快速视频去雨的知识蒸馏
通过知识蒸馏,我们提出了一种基于 Rain Review 的通用视频除雨网络(称为 RRGNet),它可以处理不同的雨线类型,并具备最佳的运行速度和除雨效果。
- MM通过互信息估计与最大化进行零样本基于骨架的动作识别
通过相互信息估计和最大化,我们提出了一种基于零样本骨骼动作识别的新方法,通过最大化视觉和语义空间之间的相互信息来进行分布对齐,并利用时间信息来估计相互信息,以增加观察到的帧数。
- MM具有更稠密感受野的循环自监督视频降噪
自监督视频去噪中的 Blind Spot 网络限制导致先前的方法在整个参考帧或邻居帧中存在重要信息丢失和纹理破坏,RDRF 方法通过更密集的感受野充分利用参考帧和邻居帧的信息,并更好地利用本地和远程邻居特征的时间信息。
- ICCVDeDrift:内容漂移下的鲁棒相似度搜索
通过研究媒体共享网站上上传和搜索的内容的统计分布,我们调查了 “内容漂移” 对基于嵌入空间中最近邻搜索的大规模相似度搜索工具的影响。我们提出并分析了基于可用长时间段上的时间信息的真实图像和视频数据集,基于这些学习结果,我们设计了一种名为 D - 动态图的深度学习:模型与基准
本文通过对时空信息学习的先进优势进行调查和性能比较,为动态图形表示学习领域建立坚实的基础,以促进该领域的研究