异常融合：多模态异常扩散合成

Apr, 2024

AnomalyXFusion: Multi-modal Anomaly Synthesis with Diffusion

Jie Hu, Yawen Huang, Yilin Lu, Guoyang Xie, Guannan Jiang...

TL;DR为了增强合成异常样本的准确性，研究提出了 AnomalyXFusion 框架，该框架利用多模态信息提高异常样本的质量，包括图像、文本和掩码特征，并通过聚合和整合各种模态特征到统一的嵌入空间以及利用自适应调整来进行受控生成。

Abstract

anomaly synthesis is one of the effective methods to augment abnormal samples for training. However, current anomaly synthesis methods predominantly rely on texture information as input, which limits the fidelity

anomaly synthesis anomalyxfusion framework multi-modality information mif module ddf module

发现论文，激发创造

情感分析中的多特征和多模态补充融合

该论文提出了一种基于音频和文本的多模态情感分析方法，使用多特征融合和多模态融合策略进行深层特征融合，通过实验证明了该方法在多个情感分析数据集上的有效性和优越性。

Apr, 2019

多模态工业异常检测通过交叉模态特征映射

这篇论文探讨了工业多模态异常检测任务，利用点云和 RGB 图像来定位异常。我们介绍了一种新颖且快速的框架，它学习将一个模态中的特征映射到另一个模态的正常样本上。在测试时，通过定位观察到的特征和映射特征之间的不一致性来检测异常。大量实验证明，我们的方法在 MVTec 3D-AD 数据集的标准和少样本设置中实现了最先进的检测和分割性能，同时实现了更快的推理速度和更低的内存占用，优于先前的多模态异常检测方法。此外，我们提出一种层裁剪技术，在性能上略有损失的同时提高了内存和时间效率。

Dec, 2023

异常扩散：基于扩散模型的少样本异常图像生成

提出了一种基于扩散的少样本异常生成模型，利用大规模数据集中学习到的潜在扩散模型的强优先信息，增强生成的真实性，并通过创新的自适应注意力重新加权机制提高生成异常图像和异常遮罩之间的对齐，实现了准确匹配的异常图像 - 遮罩对，从而显著提高异常检测任务的性能。

Dec, 2023

一种综合增强的异常检测框架

该论文分析了对训练重建网络起到贡献的模拟异常的关键特征，并基于这些特征提出了综合框架，结合重建方法和分离训练策略，解决了过拟合问题并避免干扰重建过程，评估结果表明该方法在对象类别方面优于现有方法，并证明其在真实场景下遇到各种意外异常具有良好的潜力。

Aug, 2023

多焦点与多模态之间的桥梁：多模态图像融合的聚焦集成框架

在本文中，我们提出了一种多模态图像融合（MMIF）框架，旨在解决多个可见光图像与红外图像的焦点区域不同的融合问题。通过引入半稀疏平滑滤波器对图像进行分解为结构和纹理成分，并提出了一种新的多尺度操作器对纹理成分进行融合。同时，我们考虑结构成分中能量信息的分布，以实现场景亮度的有效捕捉和合理的对比度维持。实验结果表明，该算法在视觉感知和数量化评估方面均优于现有的方法。

Nov, 2023

通过双重条件的扩散修正提升多类异常检测

本文提出了一种创新的多类异常检测方法，通过将扩散模型和变换器相结合，利用扩散获取高频信息以解决模糊重建问题，引入双重调节以保证准确性，采用时空融合以提升性能，实验证明该方法在多类异常检测方面表现卓越。

Jul, 2024

MM-Diff: 多模态条件融合的高保真图像个性化

为了提高主题准确性，我们提出了 MM-Diff 的统一且无需调参的个性化图像生成框架，能够在几秒钟内生成单个和多个主题的高保真图像。MM-Diff 利用视觉编码器将输入图像转换为 CLS 和 patch 嵌入，而通过设计精良的多模态交叉注意机制，CLS 嵌入一方面用于增强文本嵌入，另一方面与 patch 嵌入一起用于生成少量细节丰富的主题嵌入，并且在训练过程中引入了交叉注意图约束，确保推理过程中的灵活多主题图像采样。大量实验证明了 MM-Diff 相对于其他主要方法的优越性能。

Mar, 2024

融合潜在扩散模型的在线自适应工业缺陷生成的新方法

介绍了一种针对工业异常检测中缺乏缺陷样本的挑战的新算法，利用扩充缺陷样本来提高异常检测性能。该方法通过在潜在空间中生成缺陷样本的扩散模型，并通过一个特征编辑过程对其进行优化，采用三阶段的图像生成推理策略，生成高质量、多样化的缺陷样本，从而显著提高了基于扩充训练集的异常检测的准确性。在广泛认可的 MVTec AD 数据集上，该方法将其异常检测的表现提升了 1.5％，1.9％和 3.1％的 AP、IAP 和 IAP90 指标。

Feb, 2024

MaxFusion: 文本 - 图像扩散模型中的即插即用多模态生成

本研究提出了一种名为 MaxFusion 的新策略，通过合并多个模型的对齐特征，为扩展到新模态条件的基于文本到图像生成模型提供了一个高效的伸缩方法。

Apr, 2024

FM-ViT：面部反欺诈的灵活模态视觉变压器

本文提出了一种基于 Transformer 的框架，名为 Flexible Modal Vision Transformer (FM-ViT)，用于面部防欺骗，以灵活地针对任何单模态攻击情景和可用的多模态数据。实验结果表明，单个基于 FM-ViT 的模型不仅可以灵活评估不同的模态样本，而且在较小的 FLOPs 和模型参数的情况下，也可以超越现有的单模态框架，并与多模态框架的性能相当。

May, 2023