- 综合多模态问题生成
使用 SMMQG 生成合成数据,该方法结合了检索器、大型语言模型和大型多模型,可以直接从多模态文档中生成符合特定样式和形式的问题和答案对,用于对多模态文档进行问答评估,并与现有数据集 MMQA 进行质量对比。
- SK-VQA:用于训练上下文增强的多模态 LLM 的大规模合成知识生成
我们生成了一个包含超过 200 万个问题 - 答案对的大型综合多模态数据集 SK-VQA,该数据集需要外部知识来确定最终答案。通过广泛的实验,我们证明我们的合成数据集不仅可以作为一个具有挑战性的基准测试,而且对于调整现有的生成性多模态模型以 - 未知之地:生成新环境的地理描述
通过构建基于地理空间数据的知识图谱,利用上下文无关文法(CFG)和大型语言模型 (LLM) 生成导航指令,本研究提出了一种用于生成高质量合成数据的大规模增强方法,以解决新环境下训练数据不足的问题。结果显示,通过 CFG 增强训练的模型在未知 - SynRS3D: 通过单目遥感影像进行全球三维语义理解的合成数据集
从单视图的高分辨率遥感图像实现全球语义三维理解是地球观测领域的关键问题之一。本论文介绍了专门为地球观测领域开发的合成数据生成流程,并提出了全球最大的合成卫星影像三维数据集 SynRS3D,其中包括 69667 幅高分辨率光学图像,覆盖了全球 - 推动零售数据科学:合成数据的综合评估
本文介绍了一种综合性框架,用于评估合成零售数据,注重保真度、实用性和隐私性。通过稳定性和普适性来衡量保真度,证明了合成数据在需求预测和动态定价等关键零售任务中的有效性,通过差分隐私确保数据具有出色的相似性和安全性,验证了该框架对于合成零售数 - 语音语言模型的指导数据生成和无监督适应
我们提出了三种方法来生成合成样本,以训练和评估能够处理文本和语音输入的多模态大语言模型。通过解决包含多种模态的样本的稀缺性问题,合成数据生成成为提高这些系统性能并促进语音和文本领域的跨模态关系建模的关键策略。我们使用大型语言模型生成文本组件 - ACLP-TA:使用近端策略优化增强大型语言模型下的表格数据增强技术
利用近似策略优化(PPO)引导大语言模型(LLM)来增强表格特征的概率分布,从而使 LLM 成为用于合成表格数据的生成器,在三个真实数据集上通过实验证明,该方法相对于最先进技术提高了约 4%的合成模型准确性。
- 关于基于 LLMs 驱动的合成数据生成、整理和评估的调查
这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式,突出现有研究中的差距,并概述未来研究的前景,以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。
- 在小学可视化编程中对生成模型进行计算思维测试的基准评估
通过使用基于符号方法生成的综合数据集,对生成模型进行微调以提高在计算思维测试中的表现。
- 为促进公正而收集具有全球视角的扎实合成数据
通过综合收集来自 125 个国家的 12 种语言的新闻文章,结合强制的专题多样化、翻译和摘要生成,我们提出了一种新颖的方法来创建合成数据集,这些数据集能够准确地反映真实世界的复杂性,并解决传统数据集中的代表不足问题,初步结果表明,在传统命名 - 在低数据环境中通过合成数据提高室内温度预测能力
通过结合真实数据和合成数据来改善训练集并解决数据不平衡问题,合成数据增强在提高预测准确性方面具有潜力,并可为低数据环境下的更强大的预测模型铺平道路。
- 合成过采样:理论和使用 LLMs 解决数据不平衡的实践方法
不平衡数据和虚假关联是机器学习和数据科学中常见的挑战。本文介绍了 OPAL(使用人工生成的 LLM 数据进行过采样),一种系统的过采样方法,利用大型语言模型(LLMs)生成高质量的少数类别合成数据,与深度生成模型进行预测任务的合成数据生成方 - 利用生成模型提升临床文档的质量
通过合成数据生成技术来提升临床文档编制的方法,生成高质量的合成文本以准确和高效地改善现有的文档工作流程,进而改善病患护理、减少行政负担和提高医疗系统效率。
- 用于 3D 心肌变形分析的合成数据生成
提出了一种合成数据生成方法,用于丰富心血管影像数据集,包括关键的地面真实光流注释,以克服高分辨率 CT 数据集稀缺性带来的限制,从而促进精确可靠的心肌变形分析算法在临床应用和诊断中的发展。
- GenPalm:无接触式扩散模型掌纹生成
利用扩散概率模型介绍了一种新的手掌纹理生成方法,并开发了一个端到端框架来合成多个手掌身份,通过多个测试数据库的交叉数据库和时间分离评估协议证实了生成的手掌纹理图像在增强非接触式手掌纹理识别性能方面的有效性。
- 将差分隐私合成数据应用于关系数据库的适应性
本研究提出了一种首次相结合现有差分隐私机制生成综合性关系型数据库的算法,通过迭代优化各个合成表之间的关系,最小化其低阶边缘分布的近似误差,并保持参照完整性。最终,我们对该算法提供了差分隐私和理论效用保证。
- 基于深度度量学习的合成异常暴露的离群分布检测
该研究提出了一种将深度度量学习和扩散模型结合起来的新方法,用于通过合成数据对于分布外(OOD)进行检测,并证明基于度量学习的损失函数优于 softmax,在生成的 OOD 数据上的训练使得模型在传统 OOD 检测指标上表现优于强基线模型。
- 隐私保护的统计数据生成:用于脓毒症检测的应用
在生物医学领域中,合成数据生成方法的兴起为数据驱动技术提供了有希望的机会。本研究提出了一种统计方法用于分类问题的合成数据生成。我们评估了核密度估计和 K 最近邻采样(KDE-KNN)生成的合成数据在现实环境中的实用性和隐私影响,特别关注其在 - Bt-GAN:通过偏差转换生成对抗网络生成公平合成健康数据
通过包括公平性考虑和利用生成对抗网络等先进技术,我们提出了一种新颖且专业的方法来解决医疗领域合成数据生成的局限性,为医疗应用中更可靠和无偏的预测铺平了道路。
- 用受控潜在扩散模型修正心脏成像偏差
基于心脏磁共振成像的深度学习解决方案在疾病诊断和预后方面的进展受到高度不平衡和有偏训练数据的阻碍。为了解决这个问题,我们提出了一种通过基于敏感属性(如性别、年龄、体重指数和健康状况)生成合成数据来缓解数据集中固有的不平衡问题的方法。我们采用