- 非独立分布联邦学习的特征匹配数据合成
通过生成合成数据来处理非独立和不同分布的数据之间的困难,从而提出了一种硬特征匹配数据合成方法以及一个数据增强的联邦学习框架来缓解数据异质性, 理论分析和模拟结果验证了提出的方法在解决非独立数据挑战方面的有效性。
- 利用一对多合成技术将手术仪器分割推广到未知域
本文研究使用深度学习技术处理外科手术的数据,并通过数据合成技术建立一个更具普适性的数据集,提高模型的泛化性能,实现在真实数据领域取得了显著的成果。
- 基于领域知识的健康数据映射合成故障样本生成方法,用于跨领域星行星齿轮箱故障诊断
本文提出两种基于 HDMap 的数据合成方法(CutPaste 和 FaultPaste)来解决深度学习方法中存在的领域偏移问题,通过从源域提取的领域知识和故障特征合成目标域中的故障数据,实现了对各种严重程度故障的放缩合成,从而实现了对极端 - 扩散模型是多任务强化学习中有效的规划器和数据生成器
本文提出了一种基于 Transformers 和 prompt 学习的多任务扩散模型 MTDiff,利用扩散模型生成计划和数据合成,实现了跨不同多任务数据之间的隐式知识共享,并在 Meta-World 和 Maze2D 上的 50 个任务和 - 使用少量数据合成实现高效的开放领域多跳问答
本文提出了一种基于借助少于 10 个人工标注的问题答案对进行改进较小的语言模型的多跳问答数据合成框架,经过句子等数据集测试实验,证明此框架可以显著提高运行效率并具有较好的准确性。
- 使用语音合成进行语音识别数据增强的文本生成
本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强,并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中,实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具
- 基于条件扩散模型的电力用户定制负载曲线合成
本研究提出了一种基于条件扩散模型的定制化负荷曲线合成方法,支持异质性用户的生成以及根据其应用需求的独特负荷曲线。实验结果验证了该方法的有效性和优越性。
- CVPR跨模态检索中的伪相关性检测与缓解
本论文提出了 ODmAP@k 指标来衡量训练数据中微小对象的相关性对于跨模态检索模型的影响,并使用自动图像和文本操作来控制这种对象相关性。通过精心设计的综合数据和微调器来应对模型偏见,提高了图像 - 文本检索框架的性能表现。
- 文本到 SQL 解析中合成高质量数据的重要性
本文提出了一种新颖的数据合成框架,其中包括来自模式的关键关系、强类型和基于模式距离的列抽样,并采用了 SQL-to-text 任务的中间表示(IR),进一步提高了生成的自然语言问题的质量。实验证明,当现有强大的语义解析器在高质量的合成数据上 - 因果结构假设检验与数据生成模型
通过深度神经网络使用非参数化结构因果知识,进行因果模型的功能关系的近似,从而能够测试结构先验的泛化和数据综合目的,该方法可以在小规模数据集上完成,并能够识别并构建出具有最佳泛化容量的先验,用于构建大型、具有因果关系的数据集。
- 合成电子健康记录的评估
本文提出了两个度量标准,即相似性和独特性,用于样本级别对合成数据集的评估,并以 CF 患者的电子病历为例,展示了这些度量标准的使用和各种现代生成模型的比较。
- 零数据增量学习的类印象
提出了一种新型的、无需实际数据的分类增量学习框架,采用数据合成的方式生成虚拟数据大大缓解了灾难性遗忘现象,采用余弦归一化交叉熵损失、边际损失和领域对比损失来优化模型的分类性能,将该方法与现有方法进行比较实验,并在诊断心脏超声图像方面取得了很 - 对抗性随机森林用于密度估计和生成建模
本文提出了使用无监督随机森林的新型密度估计和数据合成方法。通过交替的生成和区分,树逐渐学习到数据的结构属性。 与经典的基于树的替代方案不同,我们的方法提供平滑的(非)条件密度并允许完全合成数据生成。 在执行速度平均快大约两个数量级的同时,我 - CVPR通过相似性感知归一化探索场景文本的自监督表示学习
提出一种自监督生成网络(SimAN),通过相邻的图像块来指导网络进行图像重建,增强网络对图像的表征能力,该方法不仅可用于复杂图像识别中,也可以用于数据合成、文本图像编辑和字体插值等实际应用领域。
- ECCVLEDNet: 低光弱化与去模糊联合处理
该研究通过引入新的数据合成流程来模拟真实的低照度模糊退化,提出了联合低照度增强和去模糊的大规模数据集 LOL-Blur,同时提出了一种名为 LEDNet 的有效网络,解决了夜间摄影低照度和模糊问题。
- EMNLP通过数据综合,增强和课程来缓解抽象摘要中的数据匮乏
通过数据合成、数据增强、课程学习等方法,不需要额外的数据,即可改善抽象摘要模型的性能。研究表明,采用这三种方法可以在两个摘要模型和两个不同的小数据集上改善抽象摘要。此外,当分别应用和组合使用这些技术时,它们都可以提高性能。
- CVPRArtiBoost: 基于在线探索和合成技术提升带有关节的三维手 - 物体姿态估计
提出了一种名为 ArtiBoost 的轻量级在线数据增强方法,通过对合成手 - 物体配置和视点空间进行采样,可以覆盖多样的手 - 物体姿态和相机视点,并通过损失反馈和样本重新加权来自适应地丰富当前难以区分的项。该方法在几个手 - 物体基准测 - KDD提高光学字符识别文本自然语言处理准确性的框架
本文介绍了一种有效的框架,使用实体识别作为示例,通过构建文档合成流水线,生成具有实际应用价值的有损数据并训练文本修复模型,从而解决 OCR 错误导致的实体识别精度下降问题。
- ICLR张量幻觉下的少样本学习
本文提出了一种使用简单的损失函数训练特征生成器,在数据合成过程中生成张量特征而不是向量特征的方法,实验证明该方法在少样本分类中表现优异,超过了更复杂的数据增强方法,成为新的最先进技术。
- EMNLPText2App: 从文本描述创建 Android 应用的框架
Text2App 是一个可将自然语言转化为 Android 应用程序的框架,采用抽象中间形式语言来实现代码生成,结合人类调查的数据合成方法对序列模型进行训练,在 GPT-3 的帮助下,它能够从高度抽象的指令中创建应用程序,并且具有普遍适用的