- AdaRevD: 自适应图像去模糊技术中推动可逆解码极限的改进补丁退出方法
本篇论文介绍了 AdaRevD 方法,通过继承已经训练好的编码器的权重,重新设计了可逆解码器,用于提升图像去模糊的效果,解决了现有方法解码能力的限制,并通过逐渐分离高级退化程度和低级模糊模式来提高模型的性能。同时,通过引入分类器来学习图像块 - 警惕别名 - 信号保留对于强健的图像恢复至关重要
通过在传统的重建变压器中提供无混叠路径,BOA-Restormer 是一种基于变压器的图像恢复模型,能够同时改善模型稳健性和恢复性能。
- CycleFormer:基于语言建模的 TSP 求解器
我们提出了一种新的 Transformer 模型 CycleFormer 用于解决旅行推销员问题 (TSP)。该模型充分考虑了 TSP 的特点,并通过将编码器输出与解码器线性层相等以及直接连接编码器的上下文向量来实现这些元素的完全融合。通过 - 一种分层特征重构的自编码器用于无监督异常检测
无需任何手动注释和先前知识的异常检测和定位是一项具有挑战性的任务,本文提出了一个简单而有效的架构,在异常检测中取得了更准确和鲁棒的定位结果。
- MambaAD:用于多类无监督异常检测的状态空间模型研究
应用 Mamba 到多类无监督异常检测,提出了包含预训练编码器和 Mamba 解码器的 MambaAD,通过在多个尺度上引入局部增强状态空间模块 (LSS),该方法在六个不同的异常检测数据集上展示了具有 SoTA 性能的结果,证实了其有效性 - Group-Mix SAM:工业生产线应用的轻量级解决方案
使用轻量级图像编码器,通过解耦蒸馏在资源有限环境下训练 MobileSAM 的编码器,得到了参数和浮点运算量更少,并在工业数据集上与 MobileSAM 相当的 Group-Mix SAM,表现优秀,适合实际装配线应用。
- Levenshtein 变换器及其变体的解码分析
Levenshtein transformer (LevT) 是一个非自回归机器翻译模型,具有高解码效率和可比的翻译质量,其中 BLEU 分数表明了它的并行解码与迭代修正过程。本研究关注 LevT 的解码器,分析了解码结果的长度、子词生成和 - DrBERT: BERT 预训练中揭示掩码语言模型解码器的潜力
提出了多个增强的解码器设计,并引入了 DrBERT(经过解码器优化的 BERT)作为一种新方法进行模型训练,通过微调对原始 BERT 模型的解码器进行改进,有效提高了模型性能而不增加推理时间和资源使用。
- 关于语言模型水印可学习性的研究
通过水印技术对语言模型生成的文本进行统计检测,有助于在语言模型的负责部署中应用,文章提出了水印蒸馏的方法,通过训练学生模型模仿使用解码器水印技术的教师模型,研究发现模型能够学会生成高可检测性的水印文本,但也存在一些限制。
- 稀疏编码解码器实现的医学图像分割
基于卷积稀疏向量编码的解码器,名为 CASCSCDE,在医学图像分割中有效地提升了 Transformers 模型的性能。
- 使用 Wasserstein ALI 和改进的 MIPGAN 生成最坏情况变形
使用生成对抗网络(GAN)创建逼真图像的方法已取得很大进展。为了能够重建图像或使用真实数据生成图像,需要一个编码器,它可以将 GAN 的潜在空间映射回图像空间。通过训练三个网络(编码器、解码器 / 生成器和鉴别器),可以同时构建这三个网络( - 用递归的、基于变压器的神经网络学习解码表面码
我们提出了一种基于循环和 Transformer 的神经网络解码器,可以学习解码表面码(surface code),并在真实世界的数据中击败现有的算法解码器,在距离为 3 和 5 的表面码上优于 Google 的 Sycamore 量子处理 - 使用多种机器学习技术解码大脑运动想象
本文研究了运动想象技术在 BCI 实验中的应用,使用不同种类的电极记录数据,运用机器学习方法建立解码器以实时预测意图。
- SegViTv2: 使用纯视觉 Transformer 探索高效持续语义分割
使用 Vision Transformers 进行语义分割的研究,提出了 SegViTv2,通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本,同时在 - U-Net 设计与分析的统一框架
本文提出了一个设计和分析通用 U-Net 体系结构的框架,介绍了它们在编码器和解码器中的作用,通过预处理与 ResNets 的相关性及其高分辨率缩放极限,为 PDE 模型、图像分割和扩散模型提供了更好的性能,并提出设计新的 U-Net 架构 - 3D 单目标跟踪的相关金字塔网络
本文提出了一种新颖的相关金字塔网络(CorpNet),采用统一的编码器和运动分解解码器,着重解决了如何从稀疏不完整的点云中学习目标感知表征的中心问题。经过实验证明,该方法在两个常用数据集上均取得了最先进的结果,并且具有实时性。
- 探索用于不平衡学习的视觉 - 语言模型
本文针对 Vision-Language models 在处理 imbalanced dataset 时性能较差的问题,提出了加入 lightweight decoder 和 imbalanced 方法的改进方案,并在 ImageNet-L - 变分自编码器(VAE)理论基础和应用
本文介绍了一种基于神经网络的概率图模型 —— 变分自编码器(VAEs),它可以在潜在空间中对输入数据进行编码,并根据潜在变量进行重构以生成接近原始分布的新元素。
- CVPR带有条件生成器的多现实图像压缩
通过优化失真、真实感和压缩率之间的平衡,生成式压缩方法可以在低比特率下产生详细,逼真的图像。本文提出了一种新方法,训练了一个解码器,能够在失真 - 真实感平衡中生成高质量的实际效果,创造了最新的 state-of-the-art 技术水平。
- ECCV神经图像压缩的内容自适应潜变量与解码器
本文提供了一种改进的神经图像压缩算法框架,该框架包括两种内容自适应的新方法:对潜变量进行自适应通道剪枝以及通过特征变换提高解码器端的内容自适应性,实现了最先进的性能表现。