- 磁共振图像的切片间超分辨率:预训练和自监督微调
提出了一种自监督超分辨率 MR 图像的方法,通过预训练和微调模型,实现高质量的图像重建,可应用于临床医学领域。
- 联合时空建模和对比学习的自监督心率测量
我们的研究论文介绍了关于自监督心率测量的解决方案,其中我们提出了基于空间 - 时间建模和对比学习的自监督心率估计算法,并通过组合策略获得更准确的心率估计,最终在挑战赛中获得第二名。
- FILS:自我监督的语义语言空间内视频特征预测
利用全面的自我监督方式,在语义语言空间中通过预测视频特征的掩码语义来实现更具语义性的视频表示,该方法在下游动作识别任务中具有显著的传递性能,并在诸如 Epic-Kitchens、Something-SomethingV2、Charades- - $ extit {S}^3$Gaussian:自主驾驶的自我监督街道高斯分布
通过自我监督学习的方法,在不使用 3D 注释的情况下,我们提出了一种自适应街景高斯方法来分解静态和动态元素并取得最佳性能。
- NeurCross: 用于四边形网格生成中表示交叉字段的自监督神经方法
提出一种名为 NeurCross 的自监督神经表示的跨域的四边形网格生成方法,通过利用神经符号距离函数 (SDF) 进行 SDF 过度拟合和跨域的预测,并通过 SDF 的 Hessian 矩阵对整体跨域进行规范化调整,显著改善奇异点的位置和 - SSAMBA:自监督音频表示学习与 Mamba 状态空间模型
使用自监督方法的 SSAMBA 模型,结合双向 Mamba 的优势,在音频表示学习任务中实现更高的性能和更高的效率。
- EndoDAC: 适用于任何内视镜摄像机的高效自我监督深度估计的适应性基础模型
我们提出了一种高效的自监督深度估计框架 EndoDAC,它通过采用动态向量化低秩适应方法(DV-LoRA)和卷积颈块,利用极少的可训练参数将基础模型适应于外科手术领域,从而在更少的训练时期和未了解相机内参数的情况下获得卓越的性能。
- 探索联合嵌入预测架构在一般音频表示学习中的设计选择
本文研究自监督通用音频表示学习的问题,探讨了在此任务中使用联合嵌入预测架构(JEPA),通过将输入的 mel 频谱图分割为上下文和目标两部分,计算每个部分的神经表示,并训练神经网络从上下文表示中预测目标表示。通过对各种音频分类基准进行广泛实 - M${^2}$Depth: 自监督的双帧多摄像头度量深度估计
该研究论文提出了一种新颖的自监督双帧多摄像头度量深度估计网络 (M^2Depth),旨在预测自动驾驶中可靠的具有尺度感知的周围深度。与以往使用单个时间步的多视图图像或单个相机的多个时间步图像不同,M^2Depth 采用多个相机的时间相邻的两 - iMTSP: 用命令式学习解决最小 - 最大多旅行商问题
该论文提出了一种新颖的自我监督、双层优化学习框架(imperative MTSP),将多旅行商问题(MTSP)通过强制性学习的方式分解为多个单旅行商问题(TSP),并使用控制变量梯度估计算法克服了梯度方差问题,实验证明该方法在大规模问题下比 - CVPR自我监督单目深度估计中动态区域的挖掘监督
利用自我监督训练框架,将静态和动态区域的图像深度估计分离,通过伪深度标签改善动态场景的深度估计性能。
- ICLR自助学习的开放世界层次化实体分割 (SOHES)
本研究提出了具有自我监督的开放世界分层实体分割(SOHES)方法,通过视觉特征聚类生成高质量伪标签,利用师生互相学习过程解决伪标签中的噪声问题,从而在只使用原始图像作为训练数据的情况下,在无人标记掩码的情况下实现了自我监督的开放世界分割。
- VXP: 像素 - 体素大规模图像激光雷达地点识别
我们提出了一种新颖的 Voxel-Cross-Pixel(VXP)方法,通过自监督方式建立了体素和像素之间的对应关系,并将其带入共享特征空间,从而解决了在不同领域(2D 图像和 3D 点云)提取一致且鲁棒的全局描述符的挑战。通过在三个基准测 - 基于视觉基础模型的无标注语义分割
我们构建了一个轻量级模块,基于自监督预训练的视觉编码器与预训练文本编码器对齐图像特征,利用现有的基础模型生成语义分割数据集的免费注释,并使用这个模块为任何预训练视觉编码器带来基于语言的语义,只需少量无注释训练数据,表现出令人印象深刻的泛化能 - 一种用于图像水印去除的自监督卷积神经网络
本研究提出了一种自监督卷积神经网络(SWCNN)用于图像水印去除,通过构建参考水印图像来提高算法的鲁棒性和视觉效果,实验证明该方法在图像水印去除方面优于常用的卷积神经网络。
- DO3D: 自监督学习单目视频的分解目标感知 3D 运动和深度
提出了一种自监督方法,可以从单目视频中联合学习 3D 运动和深度。通过利用深度和运动网络相互协作来准确建模现实场景的几何和动态,进而改进了深度估计和 3D 动作估计的性能。
- 大型语言模型中的上下文翻译发生在哪里
通过层次上的上下文遮蔽实验,我们证明了大型语言模型中存在一个任务识别点,该点将任务编码到输入表示中,不再需要注意上下文,同时还观察到在层次遮蔽时的低性能与任务识别层之间的对应关系,利用这种冗余性可在提示 5 个示例时节省 45% 的计算量, - 掩蔽胶囊自编码器
我们提出了 Masked Capsule Autoencoders(MCAE),这是第一个利用自监督方式进行预训练的 Capsule Network。通过在监督训练之前使用掩码图像建模作为预训练阶段,我们的 MCAE 模型解决了 Capsu - 基于主动推理的无人机辅助无线网络自主路径规划
一种用于 UAV 辅助网络的新型自监督路径规划方法,通过离线解决训练示例并使用解决方案作为演示来让 UAV 学习世界模型从而理解环境,并隐含地发现优化器的策略。具备世界模型的 UAV 可以进行实时自主决策和在线规划,通过对预期惊喜进行评分, - 多重网络中的表示学习:信息融合的位置和方法
在本文中,我们探索在无监督或半监督方式下,针对多通道网络中的节点学习表征的问题,并通过在图处理过程的不同层次上进行多样化的信息融合方案的详细分析和实验评估,提出了在处理多通道网络时如何构建 GNN 架构的改进方法。