扩增模型与检索中的数据增强视角
通过使用图像转图像的方法、以及预训练的文本到图像扩散模型将其参数化,解决了数据扩增过程中具有高级语义标注的动物种类等属性缺乏多样性的问题,并在少样本情境和杂草识别任务中得到实际应用。
Feb, 2023
本文研究了图像扩散模型,如 DALL-E 2,Imagen 和 Stable Diffusion,发现它们从训练数据中记忆单个图像并在生成时发射此类图像,总结了此类模型的隐私风险和影响隐私保护培训的新进展。
Jan, 2023
数据增强在训练深度模型中至关重要,防止其对有限数据过拟合。常见的数据增强方法虽然有效,但最近生成式人工智能的进展,如用于图像生成的扩散模型,使得更复杂的增强技术成为可能,能够生成类似于自然图像的数据。我们引入了 GeNIe,它利用一个以文本提示为条件的扩散模型,将对比的数据点(源类别的图像和目标类别的文本提示)合并起来生成对目标类别具有挑战性的样本。受到最近图像编辑方法的启发,我们限制扩散迭代次数和噪声量。这确保生成的图像保留源图像的低级和上下文特征,可能与目标类别产生冲突。我们的大量实验证明了我们的新型增强方法的有效性,尤其对于只有有限样本的类别有益。
Dec, 2023
通过扩散步骤,DiffAug 引入了一种新颖且高效的基于扩散的数据增强技术,以确保增强数据和原始数据在光滑的潜在空间中共享,从而通过无需标签、外部数据 / 模型或先前知识的约束来提高图像分类和聚类准确性,可适用于视觉和生物领域。
Sep, 2023
通过使用预训练的 UNet(或 transformer)扩散模型仅需适量的目标数据(甚至只有合成数据),在基础视觉感知任务中能够实现出色的可传递性表现,包括单眼深度、表面法线、图像分割、抠图、人体姿势估计等。
Mar, 2024
本文探讨了使用一种单一的预训练阶段进行生成性和判别性任务的统一表征学习器 —— 扩散模型,并发现这种模型在图像分类任务中具有优异的性能,特别是在经过精心特征选择和池化的情况下,扩散模型明显优于 BigBiGAN 等其他可比较的生成 - 判别方法
Jul, 2023
利用定性和定量指标以及用户研究,本论文主要研究了生成模型在面部图像生成中的有效性和不足之处,并提出了一个框架来审核生成的面部图像的特征。通过对最先进的文本到图像扩散模型生成的面部进行应用,我们发现面部图像生成存在的限制包括对文本提示的忠实度、人口统计不平衡和分布偏移。此外,我们还提出了一种分析模型,以了解训练数据选择如何影响生成模型的性能。
Sep, 2023
当前的感知模型依赖于资源密集型的数据集,因此需要创新性的解决方案。通过利用扩散模型和合成数据,通过从各种注释中构建图像输入,有助于下游任务。DetDiffusion 首次统一了生成模型和感知模型,解决了为感知模型生成有效数据的挑战。为了增强感知模型的图像生成能力,我们引入了感知感知损失(P.A. 损失),通过分割改善图像的质量和可控性。为了提高特定感知模型的性能,我们的方法在生成过程中提取和利用感知感知属性(P.A. 属性)进行自定义数据增强。目标检测任务的实验结果突出了 DetDiffusion 卓越的性能,在布局引导生成方面建立了新的最先进技术水平。此外,DetDiffusion 生成的图像合成能够有效增强训练数据,显著提高下游检测性能。
Mar, 2024
通过引入可学习的嵌入(元提示)来利用扩散模型解决视觉感知任务,我们的方法在深度估计和语义分割任务上取得了新的性能记录,并在 ADE20K 的语义分割和 COCO 数据集的姿态估计等方面达到了与最先进方法相媲美的结果,展示了其稳健性和多功能性。
Dec, 2023