- VDG:基于视觉的动态高斯驾驶仿真
将自我监督视觉里程计(VO)集成到动态高斯方法(VDG)中,从而提升了定位和深度初始化以及静态 - 动态分解,VDG 可以只使用 RGB 图像输入,在更快的速度和更大的场景下构建动态场景,并在大量定量与定性实验中展示了对于现有动态视图合成方 - Q-DiT:扩散变压器的准确后训练量化
Q-DiT 是一种结合了精细化量化、自动搜索策略和动态激活量化的方法,用于处理 Diffusion Transformer(DiT)模型中的权重和激活的巨大变化,以实现高效、高质量的量化和图像生成。
- CollaFuse: 协同扩散模型
通过分布式协作扩散模型,我们提出了一种新的方法,在感知图像的同时减轻了客户端的计算负担,从而实现协作训练和数据隐私的增强。
- 用于文本引导图像编辑的可逆一致性蒸馏方法(约 7 步)
通过应用可逆一致性蒸馏 (invertible Consistency Distillation, iCD) 框架,实现了在少于 4 个推理步骤中高质量图像合成和准确图像编码的目标,使得具有动态引导的 iCD 成为零样本文本引导图像编辑的高 - 跨模态三维图像合成的循环 2.5D 感知损失:T1 MRI 到 Tau-PET
阿尔茨海默病(AD)是最常见的痴呆症,其特征是认知能力下降和 tau 蛋白等生物标志物。使用神经网络进行图像合成,可以从易获取的 T1 加权磁共振成像(MRI)图像生成 tau-PET 图像。通过使用 2.5D 感知损失和均方差与结构相似性 - STAR:基于自回归表示的按尺度文本图像生成
STAR 是一种文本到图像模型,通过采用自回归范式实现,并通过预训练文本编码器提取文本约束的表示,利用交叉注意力层提高生成图像与文本指导的交互作用,借助 2D RoPE 和归一化版本,确保不同尺度上的相对位置的一致解释,并通过超过现有基准的 - CVPR重访非自回归 Transformer 用于高效图像合成
通过重新评估非自回归变压器的训练和推理策略设计,本文提出了一种名为 AutoNAT 的方法,该方法在自动框架中直接解决最优策略,从而大幅提升了非自回归变压器的性能,并且能够与最新的扩散模型在显著降低推理成本的同时进行可比较的表现。
- 稳定姿态:利用变形金刚进行姿态引导的文本到图像生成
通过引入粗糙到精细的注意掩蔽策略到视觉 Transformer (ViT) 中,我们提出了一个新的适配器模型 Stable-Pose,以在生成图像时获得准确的姿势指导,并通过层级方式从粗糙到精细的过渡来提供一种对齐姿势表示的优化方式。
- 通过对抗训练的分类和基于能量的判别增强一致性图像生成
在这项研究中,我们提出了一种新颖而高效的技术来改善基于一致性模型生成的图像的感知质量,并利用联合分类器 - 判别器模型进行后处理,通过引导示例特定的投影梯度迭代,使合成图像更加精细,从而在 ImageNet 64x64 数据集上获得了改进的 - 基于扩散模型和定制 CLIP 分类器的水下图像增强
我们提出了一种新颖的水下图像增强方法,通过利用多导向扩散模型进行迭代增强。我们使用图像合成策略并结合对比语言 - 图像预训练(CLIP)来训练一个控制扩散模型生成过程的分类器,在高频区域提出一种快速微调策略,结果表明我们的方法具有更自然的外 - SFDDM: 单折蒸馏扩散模型
提出了一种基于单次折叠蒸馏算法的教师 - 学生蒸馏方法,可以在保持高质量合成图像的情况下加速推断并压缩扩散模型,实现语义一致性和有意义的图像插值。
- 优秀的种子造就丰收:在文本 - 图像扩散模型中发现秘密种子
我们对随机种子在扩散推断期间的影响进行了大规模的科学研究,并发现种子对生成的图像具有显著影响。我们进一步研究了种子对可解释的视觉维度的影响,并展示了通过使用这些优质的种子进行改进的图像生成,例如高保真推断和多样化采样。本研究突出了选择良好的 - 图像合成中的计算权衡:扩散,掩码令牌和下一个令牌预测
最近的图像合成方法主要使用 Transformer 网络架构,本研究通过计算预算的可扩展性对这些方法进行比较,发现基于标记预测的方法在提示后续上明显优于扩散,但在图像质量上,扩散表现与扩大趋势相匹配。论文还比较了每种方法的推理计算效率,发现 - 隐藏与寻找:数字水印对人脸识别的影响
我们研究了数字水印技术对人脸识别模型有效性的影响,并提出了一种综合流程,通过人脸图像生成、数字水印和人脸识别的整合来系统地研究这个问题。我们的发现突显了数字水印技术与人脸识别准确性之间微妙的权衡关系,这对于负责任地利用生成模型进行人脸识别并 - 逼真车牌去模糊数据集和模型
教育部颁布的第 xxxx 号文件的要求:高校要强化学生思想政治教育,增强学生的理论素养,提高学生的科学素养等。
- CT 扫描中的多视角 X 射线图像合成与多域解缠
通过引入内容和风格的解耦技术以及姿态注意力模块,利用 CT2X-GAN 方法,该研究提出了一种学习式的端到端合成 X 射线图像的方法,从而改善合成质量并使其更接近真实的 X 射线图像。
- 用于头颈部质子治疗计划的高质量 MR 到 CT 综合的扩散薛定谔桥模型
最近在质子治疗的进展中,基于磁共振的治疗计划正逐渐得到认可,以降低与传统基于 CT 的方法相比的额外辐射暴露。这种转变凸显了精确的磁共振与 CT 图像合成的关键性需求,对于精确的质子剂量计算至关重要。本研究引入了扩散薛定谔桥模型(DSBM) - QNCD: 扩散模型的量化噪声校正
我们的研究提出了一种统一的量化噪声校正方案 (QNCD),旨在减少扩散模型中的量化噪声,消除图像合成中由量化引起的失真。通过消除嵌入到 resblock 模块中的嵌入衍生特征和动态过滤整个去噪过程中的量化偏差积累,我们的方法在 ImageN - 图像合成个性化的生成式主动学习
该研究提出了一项旨在将传统上应用于判别模型背景下的主动学习方法应用于生成模型的试点研究,重点关注图像合成个性化任务。通过引入锚定方向的概念,将查询过程转化为半开放问题,并提出了一种基于方向的不确定性采样策略来实现生成式主动学习并解决开发 - - 基于多条件潜在扩散模型的对比动力学学习
通过多条件潜在扩散模型实现了动态对比增强磁共振成像的时间序列图像合成,提出了基于 Frechet 放射学距离的医学图像质量评估方法,并展示了深度学习在对比动力学模拟中的潜力。