- 使用软标签的合成样本减轻噪声监督
通过使用混合模型从局部损失分布学习样本权重,我们提出了一种利用合成样本训练模型的框架来减轻噪音标签影响,并通过逐渐修正噪音标签估计软目标,得到了更为准确的近似真实标签和更加独立和清晰界定的聚类,实验证明我们的方法在两个基准数据集 (CIFA - 扩散模型的高效差分隐私微调
使用低维适应和差分隐私的参数高效微调扩散模型可生成有用的合成样本,并保证了微调数据的隐私保护。
- 时间序列数据增强的不平衡学习问题
这篇研究提出了一种生成单变量时间序列合成样本的新方法,通过使用过采样技术创建合成时间序列观测来改善预测模型的准确性,并在实验中证明了该方法优于全局模型和本地模型,提供了更好的权衡。
- ACLDiLM:文本级数据集蒸馏中的将数据集蒸馏为语言模型
通过训练一个语言模型生成信息丰富的合成训练样本作为文本数据,我们提出了一种新颖的文本数据集精炼方法,称为 Distilling dataset into Language Model (DiLM)。我们在各种文本分类数据集上评估了 DiLM - 时空桥扩散
该研究介绍了一种新的方法,用于从高维实值概率分布中生成独立同分布的新合成样本,该分布由一组地面真实样本隐含定义。该方法的核心是通过跨时空维度的空间 - 时间混合策略来整合,以实现从易于处理的初始概率分布到由地面真实样本表示的目标分布的最佳传 - 关于扩散模型在合成训练数据集中的限制
通过分析真实样本复制过程中通过扩散和反向过程重建的合成样本,我们发现现代扩散模型不能完美地代表数据分布以用于训练鉴别性任务,这意味着合成数据集在分类性能上不如真实数据集。我们的研究结果表明,合成数据在增加反向步骤时集中于训练数据分布的模式, - 自监督集合表示学习用于无监督元学习
通过合成样本,提取特征和目标特征之间的均方误差来研究自监督学习中数据集蒸馏和特征提取的方法,并在转移学习中进行了验证。
- ICML用元学习生成模型正则化神经网络
该研究论文探讨了提高深度学习的生成数据增强方法。通过利用生成模型产生的合成样本作为附加的小数据集进行分类,生成数据增强能够改善分类效果。研究中提出了一种名为元生成正则化(MGR)的生成数据增强策略,通过在特征提取器的正则化项中使用合成样本来 - 一种用于医学应用的生成模型潜空间中的隐私保护行走
使用生成对抗网络(GANs)生成的样本能够匹配目标分布,在解决隐私问题时,我们提出了一种潜空间导航策略,以生成多样化的合成样本,支持深度模型的有效训练,并在原则性上解决隐私问题。我们的方法借助辅助身份分类器作为导航引导,在潜空间中非线性地游 - 使用扩散模型进行蒸馏与回放的类增量学习
本文提出采用预训练稳定扩散模型作为增量学习的额外数据源,并证明其可以进一步提高现有最先进的大规模数据集类增量学习方法的性能。
- 无需访问数据的深度分类器模仿
通过噪声合成样本并经过对比扩散,CAKE 不需要原始数据即可模拟深度分类器,从而进行知识蒸馏。
- 使用去噪扩散概率模型进行零样本生成训练数据以提高手写汉字识别的准确性
本文提出一种基于 DDPM 模型从字体库生成手写汉字样本的方法,通过将新类别的 DDPM 合成样本与其他类别的真实样本相结合,提出了一种支持完整字符集的 HCCR 系统,实验结果表明,合成的样本在识别准确率上与真实样本具有相似的性能。
- CVPR零样本量化中的难样本问题
本文提出了一种 HArd 样本合成和训练(HAST)方法来解决现有零样本量化方法中合成样本容易过度拟合从而导致性能降低的问题。该方法通过对难合成样本的特殊合成和特征对齐来保证合成样本的质量,最终实验结果表明 HAST 方法比现有零样本量化方 - 利用邻居校正的类内自适应增强用于深度度量学习
本文提出了一种用于深度度量学习的新型内类别自适应增广(IAA)框架,通过生成自适应的合成样本来支持难例挖掘并提升度量学习损失,进一步通过邻居校正来修正不准确的估计,通过大量实验验证,它可以使检索性能提高 3% -6% 以上且优于现有的最高水 - CVPRBeCAPTCHA-Type: 基于生物特征的按键数据生成用于改进机器人检测
本研究提出一种数据驱动的学习模型,用于合成按键生物特征数据,并与基于通用和用户相关模型的两种统计方法进行比较。通过合成生物特征数据,本研究改进了基于按键的机器人检测系统的训练过程,并通过定量和定性实验验证了三种方法的表现。实验结果表明,在有 - DGSS: 使用迭代风格挖掘和潜在表示对域通用语义分割进行分析
本文提出单源域泛化的两步法框架来克服领域差距,使用对抗性样式和样式混合机制,以实现具有一致性表现的领域广义语义分割算法。
- Qimera:支持合成边界样本的无数据量化
研究了深度神经网络的模型压缩方法,特别是适用于轻量级移动或边缘设备的推理,提出使用超定位嵌入来生成支持边界的样本,并通过附加解耦映射层和提取全精度模型的信息,改进这种方法,实现了最先进的在无数据情况下量化的性能。
- 知识内含:无数据模型压缩方法
本论文提出三种从训练模型中生成合成样本的方法,用于压缩和微调量化模型,不需要真实数据支持,可以用于数据敏感情况,最佳方法与原始训练样本相比具有可忽略的准确度下降,此方法利用训练模型的内在批归一化层统计信息,可用于评估数据之间的相似性,为真正