- 由单模态向多模态人脸 Deepfake 检测的发展:一项调查
通过对深度伪造检测方法的综述研究,本论文提供了面向人脸为中心的深度伪造技术的分类、检测方法的演化以及适应新的生成模型的挑战,并探索了提高深度伪造检测器的可靠性和稳健性的方向。
- 无监督对比分析:基于条件扩散模型的显著模式检测
通过使用自我监督对比编码器学习仅从输入图像中提取共同模式的潜在表示,利用数据增强技术近似目标模式的分布,并利用高级生成方法的条件生成过程,生成仅包含共同模式的真实(健康)版本的输入图像,从而提高生成图像质量和图像分类准确性。
- Cephalo: 多模态视觉 - 语言模型用于生物启发材料分析与设计
Cephalo 是一个用于材料科学应用的多模态视觉大型语言模型(V-LLMs),通过集成视觉和语言数据以增强人工智能和多机器人人工智能框架内的理解和互动。通过先进的数据集生成方法,Cephalo 能够准确地提取 PDF 文件中的图像和相应的 - 边界感知解耦流网络用于逼真的极端缩放
提出了 Boundary-aware Decoupled Flow Networks (BDFlow) 来生成逼真且视觉上令人愉悦的结果,通过将高频信息分解为 “语义高频” 和 “非语义高频” 两部分,并使用 Boundary-aware - 基于条件扩散模型的腹部淋巴结分割 CT 图像综合
我们提出了一个集成条件扩散模型和 nnU-Net 模型的流程,通过合成多样化的真实腹部淋巴结数据来改善腹部淋巴结分割的性能,并证实 LN-DDPM 在腹部淋巴结图像合成方面优于其他生成方法,并更好地辅助下游的腹部淋巴结分割任务。
- DepthFM: 快速单目深度估计与流匹配
使用流场匹配的方法,通过引入预训练的图像扩散模型作为先验,允许仅在合成数据上进行训练的深度估计模型在真实图像上得到泛化;引入辅助表面法线损失进一步改进深度估计,模型对深度估计的置信度进行可靠预测,且在复杂自然场景的标准基准上,轻量级的方法表 - 精确物理驱动的文本到 3D 生成
Phy3DGen 是一种精确的、驱动物理的文本生成 3D 方法,通过分析生成的 3D 形状的固体力学,揭示了现有文本生成 3D 方法生成的 3D 形状在真实世界应用中不符合物理定律的问题,并利用 3D 扩散模型和一个数据驱动的可微分物理层来 - 自洽基于推理的方面 - 情感四元预测与提取 - 分派策略
通过模型的自洽性推理和相应的情感四元组生成,SCRAP 显著提高了应对复杂推理任务的能力,并通过一致性投票正确预测四元组,从而在 ASQP 中获得了增强的可解释性和准确性。
- TC-DiffRecon:基于扩散模型和修改的 MF-UNet 方法的纹理协调 MRI 重建方法
提出了一种名为 TC-DiffRecon 的基于扩散模型的 MRI 重建方法,不依赖于特定的加速因子进行训练,通过添加 MF-UNet 模块和 Coarse-to-Fine 采样方案来提高生成图像质量并减轻过度平滑问题。
- AAAI通过对齐和均匀性重新思考图形遮罩自编码器
通过在理论上构建 GraphMAE 和 GCL 之间的桥梁,我们证明了 GraphMAE 中的节点级重构目标隐含地执行上下文级 GCL,并指出了 GraphMAE 在对齐性和一致性方面的局限性。为了解决这些限制,我们提出了一种增强的对齐一致 - 图像字幕编码提升零样本泛化能力
最近的视觉语言模型通过将对比方法与生成方法相结合,在下游推理任务(如零样本图像分类)上取得了最先进的效果。然而,图像分类模型的一个持续问题是它们在未知分布下的泛化能力。我们提出了图像 - 字幕编码(ICE)方法,通过直接在评估时仅强制图像条 - 一份关于 3D 内容生成的全面调查
人工智能在生成内容领域取得了显著进展,其中 3D 内容生成作为视觉模态之一,面临巨大的知识和技术挑战。本研究回顾了 3D 内容生成技术的发展,并提出了一个新的分类法,详细介绍了三种不同类型的方法。同时,讨论了当前技术的局限性以及未来工作的挑 - UGPNet:通用图像修复生成先验
本文提出了 UGPNet,这是一个通用图像修复框架,通过采用现有的回归模型和生成模型的组合,有效地实现了回归和生成方法的优点,能够成功地实现高保真图像修复。
- Diff-Oracle:具有可控风格和内容的 Oracle 字符生成的扩散模型
利用扩散模型生成足够可控的甲骨文字,通过样式编码器和内容编码器控制风格和内容信息,有效提高图像生成和识别准确性。
- MM从少量未注册的超广角图像生成 360 度全景
使用一种称为 PanoDiff 的新型方法,通过使用一个或多个未注册的 Narrow Field-of-View (NFoV) 图像,高效地生成完整的 360° 全景图,该方法通过两个主要组件来克服以往方法中的局限性,包括两阶段的角度预测模 - 关于深度伪造检测器对去噪扩散模型攻击的漏洞
本研究探讨了单图 Deepfake 检测器对最新生成方法之一,去噪扩散模型(DDM)的攻击的脆弱性,并在 FaceForensics ++ 数据集上进行了测试,结果表明单个去噪扩散步骤可以显著降低所有经过测试检测器的准确性而不引入明显的视觉 - 关于有限时间序列生成问题的研究
本文利用一个带限制的优化框架,提出了一套生成方法,包括 “GuidedDiffTime”,用于生成合成的具有现实性的时间序列,相比现有方法更加高效,且无需重新训练,取得了显著的性能提升,并大幅降低了碳足迹。
- ICML演变的语义原型提升生成式零样本学习
本文提出动态语义原型演化方法(DSP)以对齐经验预定义语义原型并使合成的视觉样本特征更接近真实样本特征,从而提高现有生成 ZSL 方法的性能。
- 基于检索的对话系统的上下文蒙版自编码器
本研究提出了 Dial-MAE 技术,它是一种针对对话回答选择的后期训练技术,使用了对话语境掩码自动编码器和不对称编码器 - 解码器架构来更好地压缩对话语义,并在两个常见的基准测试中取得了最先进的性能。
- 领域扩充的 ASTE:重新思考情感三元组抽取中的泛化
这篇文章提出了一种针对领域扩展的 Aspect Sentiment Triplet Extraction(ASTE)基准,并对现有方法进行了分析,结果表明生成模型在领域泛化方面具有强大的潜力。