- AAAIInstaSynth:利用 ChatGPT 生成合成 Instagram 数据的机遇与挑战,用于赞助内容检测
通过使用大型语言模型生成合成数据,研究了其在帮助执行与在线赞助内容披露相关的法律要求方面的潜力。通过评估生成的合成标题的真实性和对未公开广告的识别训练效果,发现真实性和实用性目标之间可能存在冲突,并且即使合成帖子在个体上看起来逼真,它们在整 - 结构化合成表格数据的评估
通过提出一个带有单一、数学目标的评估框架,该论文意在解决合成表格数据质量评估的问题,允许通过结构化的方式推断度量的完整性,并统一从忠实性、下游应用和基于模型的方法等多个角度出发的度量,展示了显式表达结构的合成数据生成器在小型数据集上的卓越表 - LAB:ChatBots 的大规模对齐
使用 LAB(大规模对话机器人对齐)方法解决大型语言模型(LLM)训练中的可扩展性挑战,通过基于分类法的合成数据生成和多阶段调整框架,减少人工标注和专有模型的依赖,LAB 训练的模型在多个基准测试上表现出与传统人工标注或 GPT-4 生成的 - 合成少数类过采样技术(SMOTE)的量子方法
本文提出了量子 SMOTE 方法,该方法利用量子计算技术解决了机器学习数据集中存在的类别不平衡问题。通过使用交换测试和量子旋转等量子过程,Quantum-SMOTE 生成合成数据点,从而使得少数类数据点能够产生合成实例,而无需依赖邻近性。算 - 无监督多项选择问题回答
无监督问答,多选题问答,合成数据生成,命名实体,知识图谱。
- COLINGIR2:信息检索的信息规范化
使用 IR2 信息规范化技术在有限训练数据环境下,针对复杂查询进行综合数据生成和信息检索,实验结果表明这种规范化技术在数据生成过程中优于以往的方法,并可将成本降低 50%。
- 保护和扩展 —— 使用 GAN 生成时间序列医疗记录的合成数据
通过比较各种使用生成对抗网络的合成数据生成模型,研究证明了隐私保护生成对抗网络(PPGAN)模型在保护隐私的同时保持了可接受的生成数据质量,为将来医疗应用提供更好的数据保护。
- 使用分类扩散模型生成合成位置轨迹
运用扩散概率模型 (DPMs) 生成了合成个体位置轨迹 (ILTs),通过连续 DPM 建模联合分布,将连续变量映射到离散空间后,能够生成逼真的 ILPs 轨迹序列。
- 基于惩罚性最优传递网络的数据表生成建模
通过提供理论和实证的证据,我们的研究提出了一种名为 POTNet 的生成深度神经网络,它基于一个新颖、稳健、可解释的边际惩罚 Wasserstein 损失函数(MPW)来有效地建模包含类别和连续特征的表格数据,并能在子特征集合上进行条件建模 - 利用深度学习生成合成 SAR - 光学数据提高农作物分类的准确性
利用合成孔径雷达和光学图像融合能够显著提高农作物分类的准确性,但是传统方法在处理少数类别农作物的训练数据方面仍存在限制。本研究中,我们探索了条件表生成对抗网络(CTGAN)作为一种基于深度学习网络的合成数据生成方法,以解决农作物分类中少数类 - 无条件潜在扩散模型记忆病人影像数据
医学图像领域的生成潜在扩散模型具有广泛的应用,其中一个值得注意的应用是通过提出合成数据作为真实患者数据的替代品来实现隐私保护的开放数据共享。然而,这些模型容易遭受患者数据记忆化的问题,从而生成患者数据的副本而非新的合成样本,从而损害了保护患 - 基于虚拟现实的生成逼真合成数据用于训练手 - 物体追踪模型
通过使用 Blender 软件开发的交互式合成数据生成器 blender-hoisynth,本研究提出了一种用于精确跟踪三维手 - 物体交互的有监督学习模型,以解决大量标注数据和非专业人员标注三维真值在二维图像上的困难问题。该生成器可生成高 - 使用合成多模态虚假信息进行图像文本脱离上下文检测
利用合成数据生成的新方法进行了与虚假信息检测相关的语境外检测研究,通过创建特定于语境外检测的数据集和开发高效的分类器,实验证实了合成数据生成在解决语境外检测中的数据限制方面的有效性,为未来研究和开发健壮的虚假信息检测系统提供了有价值的资源。
- PrivStream: 流式差分隐私数据的算法
我们提出了一种用于在线流式数据生成的差分隐私合成算法,重点针对空间数据集。此外,我们提供了一个针对多个查询的在线选择性计数的通用框架,为查询回答和合成数据生成等多个任务提供基础。我们验证了算法在现实世界和模拟数据集上的实用性。
- 透过语法进化和数据增强实现可解释的乳腺癌诊断方案
医学影像诊断日益依赖机器学习模型,然而严重不平衡的数据集和有限的可解释性一直是困扰。本文通过展示一种相对新的合成数据生成技术 STEM,演示了如何使用它来训练由语法进化(GE)产生的具有内在可解释性的模型。我们在两个数据集上进行了测试,并将 - 合成数据用于多物体抓握中的快速注释和鲁棒分割
本研究提出了一种合成数据生成方法,结合小规模真实数据集,通过生成的合成场景数据和深度信息,训练出在物体识别、姿态估计和图像分割等方面表现优越的机器人抓取算法。
- 通过合成数据生成和比例类别平衡技术提升小物体的目标检测性能:在工业场景中的比较研究
通过注入额外的数据点来改善目标检测模型的性能,使用合成数据生成来减小对小目标数据点进行数据收集和注释的困难,并创建一个具有平衡分布的数据集。
- FedTabDiff: 合成混合类型表格数据生成的扩散概率模型联合学习
通过引入 Federated Tabular Diffusion (FedTabDiff),旨在无需中心化访问原始数据集的情况下生成高保真度的混合类型表格数据,从而解决了保护隐私、混合属性类型和隐含关系等表格数据固有的复杂性问题。该方法采用 - 合成数据生成的全面探索:一项调查
近年来,机器学习在不同领域得到了广泛应用,但由于数据获取昂贵和隐私法规的限制,训练数据的稀缺性成为进展的阻碍。合成数据作为一种解决方案出现,但大量发布的模型和有限的概述文献给决策带来了挑战。本文调查了过去十年中 417 个合成数据生成模型, - KAXAI: 知识分析与可解释人工智能集成环境
该论文描述了一个整合 AutoML、XAI 和合成数据生成的系统的设计,从而为用户提供了优良的用户体验设计,使他们能够利用机器学习的力量而抽象其复杂性并提供高可用性。论文中介绍了两种新型分类器,逻辑回归森林和支持向量树,用于提高模型性能,并