提升摘要编码器记忆性的闭卷训练
通过在传统的重建变压器中提供无混叠路径,BOA-Restormer 是一种基于变压器的图像恢复模型,能够同时改善模型稳健性和恢复性能。
Jun, 2024
我们提出了一种新的 Transformer 模型 CycleFormer 用于解决旅行推销员问题 (TSP)。该模型充分考虑了 TSP 的特点,并通过将编码器输出与解码器线性层相等以及直接连接编码器的上下文向量来实现这些元素的完全融合。通过添加与 TSP 的二维特性相对应的位置编码和考虑路径循环性质的解码器的循环位置编码,CycleFormer 在从 TSP-50 到 TSP-500 范围内优于现有的 TSP Transformer 模型,尤其在 TSP-500 上,优化性差距减小了约 2.8 倍,从 3.09% 降低到 1.10%。
May, 2024
通过利用简单的 Siamese 学习,我们引入了一种基于深度学习的度量方法来量化不匹配图像对之间的风格差异,利用训练无需任何显式的风格距离知识的编码器生成 X 射线图像风格表征。实验结果表明,我们的方法能够提供有意义且区分性强的风格表征,并能够准确地量化非匹配图像对之间的风格距离,为引导式风格选择和图像流程参数自动优化提供了一种有前景的技术。
May, 2024
无需任何手动注释和先前知识的异常检测和定位是一项具有挑战性的任务,本文提出了一个简单而有效的架构,在异常检测中取得了更准确和鲁棒的定位结果。
May, 2024
应用 Mamba 到多类无监督异常检测,提出了包含预训练编码器和 Mamba 解码器的 MambaAD,通过在多个尺度上引入局部增强状态空间模块 (LSS),该方法在六个不同的异常检测数据集上展示了具有 SoTA 性能的结果,证实了其有效性。
Apr, 2024
对于提取高质量表示的有效技术是在训练期间在编码器上方添加投影头部,然后丢弃它并使用预投影表示。本研究通过理论解释揭示了这种技术成功的原因,探索了低层特征表示规范化和非线性相互作用对模型性能的影响,并证明了这种机制如何提高有监督对比学习和有监督学习中的鲁棒性。
Mar, 2024
基于 ROUGE、BLEU、METEOR 分数和余弦相似度的衡量标准,我们对 GPT-J-6B、OPT-6.7B、LlaMA、LlaMA-2 这几种语言模型的 RAG 和 FN 技术的性能进行了比较和分析,结果表明 RAG 基于构造的模型较 FN 更有效。我们进一步指出 RAG 和 FN 的连接并不简单,因为将 FN 模型与 RAG 相连会导致性能下降。此外,我们提出了一种简单的基于 RAG 的架构,平均而言在 ROGUE 评分上比 FN 模型高出 16%,在 BLEU 评分上高出 15%,在余弦相似度上高出 53%。这显示了 RAG 相比 FN 在幻觉方面的显著优势,而 FN 模型的平均 8% 更好的 METEOR 分数则表明其与 RAG 相比具有更高的创造力。
Mar, 2024
通过在编码器中应用多个帧压缩层,我们能够以较低的计算复杂度实现在每 2.56 秒的输入语音中生成一个编码器输出帧,而又不显著影响大规模语音搜索任务的词错误率,并相比于强大但计算代价高昂的基准模型,降低编码器和解码器延迟分别达到了 48% 和 92%。
Feb, 2024
通过基于结构和颜色的学习图像编解码器(SLIC),将压缩任务分割为亮度和色度,构建具有新颖的多尺度架构的深度学习模型,通过将不同阶段的特征结合以获取潜在表示。通过各种实验研究和分析,与其他图像编解码器进行比较,通过通道脉冲响应、潜在通道和各种消融研究的可视化,说明了该方法的优势。该模型在 MS-SSIM 和 CIEDE2000 度量标准中相对于其他先进参考编解码器获得了 7.5% 和 4.66% 的比特率增益。
Jan, 2024
通过对 UNet 编码器的全面研究,我们发现编码器特征变化温和,而解码器特征在不同时间步长间存在显著变化。根据这一观察,我们引入了一种简单而有效的编码器传播策略,以加速各种任务的扩散抽样。此外,我们还引入了一种先验噪声注入方法来改善生成图像的纹理细节。在不使用任何知识蒸馏技术的情况下,我们的方法能够加快 Stable Diffusion(SD)和 DeepFloyd-IF 模型的抽样速度分别为 41% 和 24%,同时保持高质量的生成性能。
Dec, 2023