- ResMaster: 通过结构和细粒度指导实现高分辨率图像生成
ResMaster 是一种无需训练的方法,用于提高分辨率受限的扩散模型生成高质量图像的能力,通过低分辨率参考图像为高分辨率图像提供结构和细致的引导,能够显著减轻局部模式失真并改善细节精化。
- VHS:具有视觉外壳先验的高分辨率迭代立体匹配
我们提出了一种用于从高分辨率图像中估计深度的立体匹配方法,该方法利用视觉外壳作为先验,并使用一种内存高效的相关计算技术。
- PipeFusion: 扩散变压器模型推理的位移块并行处理
介绍了 PipeFusion 的一种新方法,利用多 GPU 并行性来解决扩散变压器(DiT)模型生成高分辨率图像的高计算和延迟挑战。通过分割图像并在多个设备上分布网络层,以管道并行的方式编排通信和计算,利用相邻扩散步骤输入的高相似性,通过重 - DiM: 高效高分辨率图像合成的扩散灰曼巴
提出了一种结合了 Mamba 和扩散模型的高效高分辨率图像合成方法 DiM,使用 ``weak-to-strong'' 训练策略和无需进一步微调的上采样策略提高训练和推理效率。
- LookHere: 有向注意力的视觉 Transformer 进行泛化和外推
我们提出了一种名为 LookHere 的新方法,用于限制 2D 注意力掩码中的固定视野的注意力头,提供平移等变性,确保注意力头的多样性,并限制注意力头在外推时面临的分布偏移,从而改善图像分类、对抗攻击和校准误差的性能。该方法在 ImageN - 自适应方向梯度卷积实现高效真实世界图像超分辨率
通过引入卷积核内核差分操作和可学习的方向梯度卷积,以及使用自适应的信息交互块,提出了一种适用于真实超分辨率的 DGPNet 方法,通过简单堆叠来平衡纹理增强和对比度,并通过与其他方法的比较结果证明了该方法的有效性和高效性。
- 基于压缩采样的 S-IQA 图像质量评估
利用压缩采样的图像质量评估方法 (S-IQA) 提出了一个新的框架,其中包括灵活采样模块、自适应嵌入模块和双分支模块,通过这个方法在各种数据集上实现了最先进的结果。
- 多模式大型语言模型中的即插即用推理基础
插拔式推理引擎 P2G 在多模态大型语言模型中的可视化推理任务表现优异,特别是在高分辨率图像中的文本和对象细节捕捉方面,与 GPT-4V 的性能相当,为模型扩展之外的有前景的替代方案。
- FouriScale: 高分辨率图像合成的频率视角
从高分辨率图像生成、降低重复模式和结构变形等问题出发,本研究通过引入频域分析的无需训练的创新方法 FouriScale 来解决这些挑战。通过替换预训练扩散模型中的原始卷积层,并结合扩张技术和低通操作,以实现结构一致性与比例一致性。通过填充和 - LLaVA-UHD: 一种感知任何纵横比和高分辨率图像的 LMM
LLaVA-UHD 是一种大型多模态模型,其中包括图像模块化策略、压缩模块和空间模式,它可以高效地感知任何宽高比和高分辨率的图像,并在多个基准测试中优于其他模型。
- 潜在数据集精炼与扩散模型
我们提出了一种结合潜在空间扩散模型和数据集精炼的潜在数据集精炼方法(LD3M),旨在解决机器学习面临的大型数据集和高分辨率图像生成的挑战,并在多个 ImageNet 子集和高分辨率图像上实验表明,LD3M 在 1 个和 10 个图像每类的情 - InfiMM-HD:高分辨率多模态理解的巨大跃进
为了解决多模态大型语言模型在处理高分辨率图像时的准确识别和理解复杂细节方面的挑战,我们提出了 InfiMM-HD,一种专门设计用于处理不同分辨率图像的创新架构,能够提高模型的视觉感知能力,同时降低计算成本。经验证明 InfiMM-HD 具有 - CVPRDistriFusion:高分辨率扩散模型的分布式并行推理
通过利用并行处理和分布式计算,我们提出了 DistriFusion 方法以应对扩散模型在生成高分辨率图像时面临的计算资源和延迟的挑战。DistriFusion 方法能够以较低的质量损失,在多个 GPU 上实现高效率的图像生成,并通过异步通信 - RefineNet: 通过分层 Transformer 和渐进细化提高高分辨率和细节准确性的文本到图像转换
我们介绍了 RefineNet,这是一种新颖的架构,旨在解决文本到图像转换系统中分辨率限制的问题。我们探讨了从文本描述生成高分辨率图像的挑战,重点关注详细准确性和计算效率之间的权衡。RefineNet 利用层次化 Transformer 结 - V*: 多模态 LLMs 中的核心机制:引导的视觉搜索
我们引入了一个带有世界知识的低光磁单模型 (LLM) 引导的视觉搜索机制,用于处理高分辨率和视觉拥挤的图像,并结合 MLLM 来增强协同推理、情境理解和对特定视觉元素的精确定位,从而提供了一种新的 MLLM 元架构 (SEAL)。
- COCO 和 Weed 数据集的稳定扩散
通过稳定扩散模型生成高分辨率图像,并利用这些图像提高检测模型的性能,这项研究有助于将稳定扩散模型应用于不同领域的分类和检测任务。
- 基于改进的自注意力机制的高分辨率电力设备识别
通过基于深度自注意力网络的创新方法,在自动化电气设备巡检方面提供了突破性的新视角,通过使用高分辨率图像提高了识别精度,并通过引入图像的语义内容来进一步改善了预测效果。
- MM实用的深度分散水印同步和融合
为了解决深度水印技术在任意分辨率图像中的应用问题,本文提出了一种名为 DWFS 的实用深度分散水印技术,并采用了分散嵌入方案、水印同步与融合模块以及基于相似性的消息融合策略,通过实验证明了其在不同数据集上相较于现有方法在性能上的优越性。
- 潜在一致性模型:用少量推理步骤合成高分辨率图像
利用潜在一致性模型(LCMs)解决迭代抽样过程在高分辨率图像合成中的计算负担和生成速度慢的问题,LCMs 通过直接预测导引反向扩散过程的 ODE 解决方案在潜空间中,实现了快速、高保真度的采样。
- SSIF:学习空间光谱超分辨率的连续图像表示
该研究论文提出了一种空间 - 光谱隐式函数 (SSIF),它能够以空间和光谱领域的连续像素坐标和连续波长的方式表示图像,通过实证验证了 SSIF 在两个具有挑战性的空间 - 光谱超分辨率基准上的有效性。研究还表明,即使允许基线模型在每个光谱