- 结合图神经网络与 Mamba 捕捉全幅图像中的局部和全局组织空间关系
通过使用消息传递图神经网络(GNN)和状态空间模型(Mamba)结合来捕捉病理切片中切片之间的局部和全局空间关系,本研究旨在预测早期肺腺癌患者(LUAD)的无进展生存率,模型在预测上表现出很好的效果,并与其他最新研究方法进行了比较。
- MVAD:用于视频流的多重视觉伪影检测器
我们提出了一个多重视觉伪影检测器,能够使用单一框架检测多种伪影类型,并且不依赖视频质量评估模型。该模型通过一种新的感知伪影时空特征提取器和一个循环记忆视觉变换器模块进行处理,实现全面优化,并在两个视频伪影数据库上取得了一致且改进的预测结果。
- 使用增强型 CNN-LSTM 网络进行飞行轨迹预测
本文提出了一种增强的 CNN-LSTM 网络作为战斗机飞行轨迹预测方法,该方法从空间和时间两个维度提取特征,通过模拟实验证明相比于原始的 CNN-LSTM 方法,预测精度提高了 32% 和 34%。
- DST-GTN:动态时空图转换网络用于交通预测
通过引入一种新型深度时空特征表示方法(动态时空特征)和捕捉交叉点之间动态时空关系的动态时空图变换网络(DST-GTN),该研究在交通预测任务上取得了最先进的性能并展现出增强的稳定性。
- CLiF-VQA:利用与人类情感相关的高级语义信息增强视频质量评估
本论文介绍了一种新的视频质量评估方法 CLiF-VQA,该方法考虑了与人类感受相关的特征和视频的空间特征,通过利用 CLIP 与人类感受之间的一致性,设计了多个客观和主观描述,提取与人类感受相关的特征。通过一个空间特征提取模块,还捕捉了视频 - 自信息领域基于特征耦合的神经 CSI 压缩
提出了一种基于信息论的 CSI 压缩方法 SD-CsiNet,在 self-information 领域内建立了一个新的 DL 网络,可以在时间和空间方面提取 CSI self-information 矩阵的特征并将这两个特征整合起来进行压 - CVPR学习缩放与取消缩放
本文介绍了一种新的算法 LZU,通过在输入图像上进行学习来计算空间特征并最终消除任何形变,使得可以应用于任何具有 2D 空间输入的任务和任何具有 2D 空间特征的模型,并通过在不同任务和数据集上的评估来展示其可用性。
- 基于文本的图像到图像翻译的即插即用扩散特征
研究使用空间特征和自我关注来实现生成图片结构的微调,并将其用于文本到图像合成中,从而实现图像到图像转换。
- AAAI动态图上可学习的谱小波,捕捉全局交互
本文提出将可学习的小波图形捕捉到动态图谱中,以提高动态图学习性能。考虑到动态图谱的演化历史,本文的方法能够在全局上更有效地捕获地理图谱,并成功应用于八个标准数据集,显著提升了地理图的动态性学习性能。
- MM基于深度学习的 UGC 视频无参考质量评估模型
本文提出了一种简单有效的 UGC 视频质量评估模型,通过训练端到端的空间特征提取网络直接从视频帧像素中学习感知质量的空间特征表示,并提取运动特征来度量空间特征无法建模的时间相关失真。
- 一种用于多模态无线传感器网络数据流的动态图神经网络异常检测新方法
本研究提出了一个新颖的多模态无线传感器网络数据流异常检测模型,通过三个图神经网络分别提取 WSN 数据流的时空特征和形式化特征,并结合节点的空间位置关系,从而大大提高了鲁棒性和 F1 得分。
- 用于无人机车辆重新识别的自校准空间特征提取网络
本文提出了一种自对齐无监督网络来提取无人机视角下肖像系统中的细化特征,旨在解决操作难度大、需要困难的注释过程的问题,并在 UAV-VeID 数据集上实现了最佳的 ReID 效果。
- CVPRDeepFace-EMD: 利用基于块的地球移动距离进行重新排名,提升超领域人脸识别
该研究提出了一种基于 Earth Mover's Distance 的重排方法,它通过比较图像的空间特征,尤其是每个局部位置的相似度(例如眼睛到眼睛),来提高人脸识别的鲁棒性,进而解决了针对新图像类型的识别问题。
- 通过空间特征学习增强端到端多通道语音分离
本研究提出了一种基于 2d 卷积层的端到端架构,通过训练时域滤波器来学习从多通道语音波形中提取空间特征,使用互通卷积差分技术 (ICD) 提高多通道语音分离模型的分离性能。
- ICCV一种快速精确的一阶段视觉定位方法
提出一种基于单阶段模型的视觉 grounding 方法,将文本查询的嵌入与 YOLOv3 物体检测器融合,加入空间特征以处理查询中的空间提及,并实现端到端联合优化,实验表明此方法对于短语定位和指代表达理解具有很大的潜力,同时建议在一些常见的 - 场景图生成可解释模型
提出了一种高效且可解释的场景图生成器,考虑了视觉、空间和语义三种特征并使用了后期融合策略,模型在 OpenImages 可视关系检测竞赛中表现优越,得分比第二名高出 5%(相对增长率 20%),该生成器是实现基于视觉语言任务如图像字幕和视觉 - CVPR多层次三维卷积神经网络学习多尺度空间特征
本文提出了一种基于多层体素网格的端到端多级学习方法来解决现有 3D 目标识别中结构化和非结构化数据表示的缺陷,结果表明该方法在节约内存的同时能够实现与密集体素表示相当的目标识别性能。
- 利用空间特征和卷积循环神经网络进行声音事件检测
本文提出使用从多通道音频中提取的低级空间特征进行声音事件检测,通过初始阶段从每个通道中单独学习这些多通道特征,扩展了卷积递归神经网络以处理更多类型的这些特征,并表明将特征呈现为体积的单独层,而不是将每个通道的特征串联成单个特征向量,可以更好