- MMWaveDH: 基于小波子带引导的卷积神经网络在高效图像去雾中的应用
WaveDH 是一个新颖而紧凑的 ConvNet,利用小波分解从特征层中提取低频和高频组件,以提高处理速度并实现高质量重建,在频率感知的基础上对特征进行了优化,以在计算成本和准确性之间取得有利的权衡,通过大量实验证明,WaveDH 方法在多 - 潜在数据集精炼与扩散模型
我们提出了一种结合潜在空间扩散模型和数据集精炼的潜在数据集精炼方法(LD3M),旨在解决机器学习面临的大型数据集和高分辨率图像生成的挑战,并在多个 ImageNet 子集和高分辨率图像上实验表明,LD3M 在 1 个和 10 个图像每类的情 - PillarNeSt: 基于主干网络扩展和预训练的基于柱状体的三维物体检测
本研究论文展示了 2D 背骨缩放和预训练对基于 pillar 的三维物体探测器的有效性,通过引入在大规模图像数据集上预训练的密集 ConvNet 作为 pillar-based 探测器的 2D 背骨,基于模型大小自适应设计的 ConvNet - ConvNet 与 Transformer,监督学习与 CLIP:超越 ImageNet 准确度
针对计算机视觉中模型选择的挑战性,本研究通过对比分析不同模型关于 ImageNet 准确性以外的行为表现,揭示了模型在误差类型、输出校准、迁移性和特征不变性等方面的多样性特征,强调在选择不同模型时需进行更细致的分析。
- 具有定向 1D 核的卷积网络
利用定向的一维卷积核能够替代二维卷积,并且在 ImageNet 分类中表现出与二维卷积相当的准确性。
- ECCVParC-Net: 基于位置感知的循环卷积结合 ConvNets 和 Transformer
本文提出了一个基于轻量级 ConvNet 模型的元模型模块,结合视觉转换器(Vision Transformers)的优点,使用位置感知循环卷积(ParC)和压缩激活操作(squeeze-exictation ops)来加强 ConvNet - CVPRProAlignNet:无监督学习逐步对齐噪声轮廓
提出一个新的 ConvNet 模型 ProAlignNet,通过使用局部相关的相似度度量来训练,能够有效地解决非全局对齐的边缘形状对齐问题,在现实场景下的两个应用中得到了优于现有方法的结果表现。
- 识别和补偿不平衡深度学习中的特征偏移
本文研究了在类别不平衡数据情况下学习卷积神经网络分类器,发现卷积神经网络容易过拟合少数类,提出了一种类别依赖温度的训练方法以解决特征偏移问题,并在基准数据集上验证了有效性。
- 学习基于能量的时空生成性卷积神经网络以获取动态模式
使用能量基础的时空生成 ConvNet 建立一个概率分布模型,可用于学习和合成存在于视频序列中的动态纹理和运动模式,该模型可从不完整的训练序列中学习和完成动态模式,并具有较好的生成能力。
- 基于 MCMC 的最大似然能量模型学习解剖学
本文研究了 Markov 链蒙特卡罗采样在无监督最大似然学习中的效果,发现使用 ConvNet 势函数训练的最小框架可以实现高质量的短时合成,同时使用正确的 Langevin 噪声调整可以实现长时稳定采样;但使用收敛困难的 MCMC 训练 - 嵌入式 FPGA 卷积神经网络加速器的算法硬件协同设计
本文提出了一种算法 - 硬件协同设计的方法,开发了一种名为 Synetgy 的 ConvNet 加速器和一种新颖的 ConvNet 模型 DiracDeltaNet,可以高效地在 FPGA 上运行,得到了更高的准确率和更快的推理速度。
- 现代 CPU 上 FFT 卷积比 Winograd 更快,这是为什么
比较了三种高度优化的实现方式(常规 FFT、Gauss-FFT 和 Winograd-based convolution)在现代多核和众核 CPU 上的效果,并使用 Roofline 性能模型对三种方法的计算阶段进行了详细的分析,结果显示 - ECCVDeepGUM: 高斯 - 均匀混合模型下深度强鲁棒回归学习
本文提出了一种名为 DeepGUM 的深度回归模型,通过使用混合高斯均匀模型,它可以在训练过程中自动适应不断变化的离群点分布,从而避免使用手动阈值对训练集中的离群点进行清理。 在进行了大量实验的基础上,我们得出结论,该新的鲁棒技术可以提供可 - 利用带有上下文聚合的 ConvNet 进行卫星影像场景分类
本文提出了一种基于上下文聚合的卷积神经网络 (ConvNet) 的新型表达形式,即 ResNet-TP,它采用 ResNet 作为骨干网络,拥有两个路径,允许网络建模局部细节和区域上下文,实验结果表明,在 UCM Land Use 和 NW - 具有门控卷积神经网络的基于字母的语音识别
本研究提出了一种基于 ConvNet 和 CTC(或 ASG)的字母语音模型,实现了与 WSJ 中最佳字母系统的匹配,并在 LibriSpeech 上展现了近乎最先进的表现。
- ECCV通过姿态估计和匹配实现通用三维表示
本文针对 3D 图像生成开展了探索,提出了一种基于多任务卷积神经网络的通用 3D 方案。通过建立代理 3D 任务来提供训练,神经网络在完成核心问题的同时也具备泛化能力和抽象能力,并在多个场景取得了超越 SIFT 等方法的成果。
- ICCV检测跟踪与跟踪检测
本文提出了一种使用 ConvNet 架构进行对象检测与跟踪的方法,采用多任务目标进行基于帧的对象检测和跨帧轨迹回归,通过引入表示对象共现的相关特征对 ConvNet 进行辅助,同时通过链接基于跨帧路径的帧级检测结果来产生视频级别高精度检测结 - 区域集成网络:改进卷积网络用于手势姿势估计
本文提出一个结构为树形的区域集成网络,用于从单眼深度图像中进行手势姿势估计,并具有端到端训练的完全性。在两个公共数据集上的实验结果表明,此方法在各方面的表现均优于现有技术。
- ICCV用于补丁匹配和重建的改进描述符
提出了一种基于卷积神经网络 (ConvNet) 的方法,用于学习本地图像描述符,可用于显着改善补丁匹配和三维重建,该方法使用多分辨率 ConvNets 学习关键点描述符,并且提出了一个新的数据集,包含比当前可用的 Multi-View St - CVPR从静态图像学习视频对象分割
本文介绍了一种基于深度学习的视频对象分割方法,将其作为引导实例分割的概念,通过离线和在线学习策略,使卷积神经网络能够处理多种输入注释并在多个数据集上获得具有竞争力的结果。