- MDNet:多解码器网络用于腹部 CT 器官分割
使用经过预训练的 MiT-B2 编码器和多个不同的解码器网络,MDNet 利用多尺度特征增强膨胀块连接不同部分的编码器,逐渐增加网络深度并精细化分割掩模,通过整合前面解码器的特征图丰富特征映射,利用前一个解码器的预测掩模进一步提供前景和背景 - CVPR基于 Transfer CLIP 的通用图像去噪
本文提出了一种利用 CLIP 模型来提高图像去噪的对称编码器 - 解码器网络,并通过渐进特征增强策略来改善解码器的鲁棒性,实验证明该方法具有优越的泛化能力。
- CLIP-VIS:适应开放词汇视频实例分割
本研究提出了一个名为 CLIP-VIS 的简单编码器 - 解码器网络,用于自适应开放词汇视频实例分割。CLIP-VIS 采用冻结的 CLIP 图像编码器,并引入了类不可知的掩码生成、时序 Top-K 增强匹配和加权开放词汇分类三个模块,实验 - AAAI跨视图层次图学习超网络用于技能需求供应联合预测
我们提出了一种用于联合技能需求 - 供应预测的跨视图分层图学习超网络(CHGH)框架,通过整合历史的需求 - 供应差距来联合预测需求和供应变化,实验证明该框架相对于七个对照模型更为优越,证明了三个模块的有效性。
- SRTransGAN:基于 Transformer 的生成对抗网络的图像超分辨率
提出了一种基于 Transformer 的生成对抗网络(SRTransGAN)来进行图像超分辨率,通过使用编码器 - 解码器网络生成 2x 图像和 4x 图像,使用视觉 Transformer 设计判别器网络来对合成和真实高分辨率图像进行二 - HEDNet: 一个用于点云中的三维物体检测的分层编码器 - 解码器网络
3D 目标检测中,稀疏的点云数据分布是一项主要挑战,我们提出了 HEDNet,一种利用编码 - 解码网络来捕捉特征间的长距离依赖关系的方法,对于大型和远处物体具有优越的检测准确性和高效性。
- 面向高效 RGB-D 语义分割的空间信息引导自适应上下文感知网络
提出了一种有效的轻量级编码器 - 解码器网络以及其他相关模块,用于在移动机器人中进行 RGB-D 语义分割,通过跨模态相关性和补充线索可以准确提取多层次 RGB-D 特征,实验结果表明该方法在分割准确性、推理时间和参数方面具有更好的权衡。
- TransRef:多尺度参考嵌入变形器 —— 用于参考引导的图像修复
本文提出了一种基于参考的图像修复方法,通过逐步参考嵌入和对齐修复和参考图像的关键点,结合参考图像信息用于引导修复过程,并在公开数据集上进行了验证。
- 基于内部结构约束的涂鸦辅助遥感图像目标提取方法
本研究提出一种基于线条注释的弱监督学习方法,在不引入辅助模块或依赖预先消息的情况下,通过两个内部结构约束和一个 scribble 约束来完善编码器 - 解码器网络的优化,从而实现遥感图像目标提取的定位和边界描述,实验证明其在此领域优于其他五 - CVPR动态视频的自适应人像抠图
通过使用编码解码网络和 transformer 网络,本文介绍了一个名为 AdaM 的自适应合成框架,用于动态视频中的前景和背景分割及 alpha 通道遮罩;在多数据集测试中,AdaM 显示出较高的适应性和合成实况,同时取得新的最佳通用性。
- MMKaliCalib: 一种用于篮球场注册的框架
本文提出了一种新的篮球场注册框架,该框架基于编码器解码器网络的估计,采用透视感知约束对采样的关键点位置进行估计,并借助篮筐位置的回归和数据增强技术使模型对不同场馆具有鲁棒性。消融研究显示了我们的贡献对挑战测试集的积极影响,我们的方法将平均均 - CVPRIFRNet:用于高效帧插值的中间特征精化网络
本文提出了一种基于编码器 - 解码器网络的视频帧插值方法 IFRNet,该方法通过提取输入数据的金字塔特征和应用中间流场实现帧合成,同时引入了任务导向的光流蒸馏损失和几何一致性正则项进行优化,实验表明该方法具有出色的性能和快速的推理速度。
- CVPR学习像素级别的视频精华检测
本文提出了一种基于像素级别特征的视频亮点检测方法,通过学习每个像素在视频中的所属类别,既考虑了时间序列特征,也考虑了空间特征;并且通过使用 3D 卷积神经网络和视觉显著性模型,构建了一个编码 - 解码网络,在三个公共基准测试集上均取得了最先 - MM远程遥感图像的通用对抗扰动
本文探讨了深度学习在遥感图像领域中的应用,尤其是在普适性对抗扰动方面的研究,并通过设计了一种新方法,可实现对遥感图像分类模型的攻击成功率高达 97.09%。
- AAAITransMEF: 基于 Transformer 的多曝光图像融合框架,使用自监督多任务学习
本文提出了一种基于 Transformer 的多曝光图像融合框架 TransMEF,使用自监督多任务学习,通过设计重构任务并使用多任务学习进行同时训练,使网络可以学习到多曝光图像的特征和提取更广义的特征,同时将 CNN 模块与 Transf - SegDiff: 基于扩散概率模型的图像分割
本研究提出了一种新方法,利用扩展后的扩散概率方法,通过端到端学习和使用编码器 - 解码器网络,对图像进行分割。该方法可以迭代地细化分割图,获得最终的分割结果,在多个基准数据集上获得了最先进的结果。
- 基于深层通道注意力网络的连续血管分割
本研究提出一种新型编码器 - 解码器深度网络结构,利用在当前帧中心处以滑动窗口方式,利用 2D+t 连续图像的多个上下文帧来分割 2D 血管掩膜。该架构具有时间和空间特征提取,跳跃连接层中的特征融合和解码器阶段的通道注意机制。通过对所提出的 - 迈向域不变的单张图像去雾
本文提出了一种基于编码器 - 解码器网络和空间感知通道注意机制的去雾算法,并引入一种贪婪本地化数据增强机制以确保去除影响后的图像的一致性,为了消除人工合成图像与真实数据集之间的差异,提出了对抗性的先验引导框架来确保性能一致性,并在实验中取得 - CVPRHyperSeg: 面向实时语义分割的块状超网络
本文提出了一种新颖的实时语义分割神经网络,其中编码器既编码也生成解码器的参数 (权重),并且为了实现最大的适应性,每个解码器块的权重都在空间上有所变化。我们设计了一种新型的超网络,在其中,用于绘制高级上下文特征的嵌套 U-Net、多头权重生 - 使用全新情感语音数据集实现可见和不可见情感风格转换的声音转换技术
本文提出了一种基于 VAW-GAN 框架的转换情感语音的方法,通过使用预训练的语音情感识别模型来传递情感样式,使网络能够将已知和未知的情感样式转移到新的话语中,从而实现了出色的性能,并发布了一个情感语音数据集。