- TSynD:针对增强医学影像分类的目标合成数据生成
通过生成模型使用医学影像数据进行有针对性的合成训练数据生成,以提高图像分类的准确性和鲁棒性。
- LLM 图推理能否超越模式记忆泛化?
大型语言模型 (LLMs) 在有隐式图结构问题上展现了巨大潜力,最近的研究试图通过专门的指导调整增强 LLMs 的图推理能力。然而,对于 LLMs 是否正在学习可推广的图推理技能或仅仅是在合成训练数据中记忆模式,仍未得到很好的探究。因此,我 - MM利用大型语言模型生成合成数据以提高基于 BERT 的神经网络的性能
利用大型语言模型(LLMs)生成的合成观察数据,用于改善机器学习模型对于自闭症谱系障碍(ASD)诊断的准确性。通过评估 ChatGPT 和 GPT-Premium 生成的 4,200 个合成观察数据,并使用预训练于生物医学文献的 BERT - ACLDUQGen: 通过多样化合成查询生成实现有效的无监督领域适应
我们提出了一种新的无监督领域适应方法 DUQGen,通过自动生成有效且多样化的合成训练数据,来优化新领域的神经排序器。实验证明,DUQGen 在标准 BEIR 数据集上始终优于零 - shot 基准,并且在 18 个数据集中有 16 个取得 - ACL基于 ChatGPT 的增强数据技术用于提高参数效率的 LLM 去偏
使用 ChatGPT 生成综合训练数据提高去偏置大型语言模型的方法表明,可以在降低计算成本、数据限制和多任务语言能力降低的情况下,有效地减少大型语言模型的社会偏见,并具有跨类别的去偏置性能。
- 边际保持、差分隐私合成数据上训练的线性模型的超出风险限制
使用差分隐私综合数据训练机器学习模型,研究合成数据对线性模型的经验风险的影响。
- ACLJOBSKAPE: 生成合成职位发布的框架以增强技能匹配
通过采用合成训练数据进行技能匹配的最新方法已经显示出有希望的结果,减少了耗时且昂贵的标注需求。本文介绍了 JobSkape,一个专门设计用于增强技能与分类匹配的合成数据生成框架,其中包含了一个综合的开源合成数据集 SkillSkape,用于 - Gen2Det: 生成检测
利用最先进的实地图像生成方法,Gen2Det 提出一个简单的模块化流程来创建用于对象检测的免费合成训练数据,包括图像级过滤、实例级过滤和改进的训练配方以应对生成中的缺陷,并在各种设置下对对象检测和分割任务显示出良好的改进。
- FocalPose++:利用渲染和比较进行焦距和物体姿态估计
我们介绍了 FocalPose ++,一种神经渲染和比较方法,用于在给定描述一个已知物体的单个 RGB 输入图像的情况下,同时估计相机物体的 6D 姿态和相机焦距。
- 使用组合同态电肌图编码器的快速与表达性手势识别
通过使用依据动作方向和修改因素定义的综合手势,从而快速实现高准确度的表情人机交互,且最小化了新受试者提供校准数据的时间。通过将真实的单一手势特征向量结合生成合成训练数据,我们从未见过的组合手势进行外推,这样的策略构建了一个大而灵活的手势词汇 - 真假:通过分布匹配进行有效的训练数据合成
我们通过广泛的实验验证了我们的合成数据在各种图像分类任务中的有效性,既可以替代真实数据集,也可以作为其增强,同时也有益于挑战性任务,如超出分布的泛化和隐私保护。
- 合성医学影像的质量如何?肺部超声的实证研究
通过使用生成模型中的合成训练数据,本研究提出了一个全面框架,以提高医学图像分析的模型开发效果,同时解决数据稀缺、数据不平衡和患者隐私问题。通过在各种规模的数据集上进行测试,我们展示了生成模型作为数据增广方法的优势,以及通过敌对方法保护患者隐 - TEM 图像中晶体缺陷的深度学习:解决 “训练数据永远不够” 的问题
本研究提出了用于分割位错的合成训练数据的参数模型,并开发了一种优化分割重叠或相交位错线的深度学习方法,该方法在多种微结构和成像条件下都表现出高效性和优越性。
- 关于方面情感分析的稳健性:对模型、数据和训练的重新思考
本研究针对情感分析在实际应用中的可靠性进行了探究,通过加强当前最佳的句法感知模型,并基于丰富的伪数据进行敌对训练,进一步提高了模型的鲁棒性。实验结果表明,所提出的方法比现有的基线模型的鲁棒性性能更好,同时合成语料库作为额外数据能够进一步提高 - 使用游戏引擎从合成数据中检测货盘
本研究旨在评估使用游戏引擎在托盘分割的机器学习中生成合成训练数据的可行性。研究开发了一款工具,可从 3D 模型以像素完美的准确性自动生成大量带注释的训练数据,并且比手动方法更快地进行。使用 Mask R-CNN 管道进行图像分割,对于单独的 - 使用合成数据训练目标检测模型的分析
本文研究使用合成数据进行物体检测的方法及其性能,实验结果给出了使用合成数据的基本指导原则,并对比了不同训练技术。
- 南非语地区的多语言机器翻译:开普敦大学 WMT22 系统
该论文讲述了开普敦大学提交给 WMT22 大规模机器翻译评估竞赛的受限跟踪的情况。该系统是一个单一的多语种翻译模型,可在英语和 8 种南部 / 东南部非洲语言之间进行翻译,并可在特定的非洲语言对之间进行翻译。该研究采用了多种适用于低资源机器 - 通过基于物体的分层表示进行移动物体分割
本篇论文介绍了一个基于对象中心的分割模型,借助变压器架构对光流进行处理来实现视频中的多个运动对象发现、追踪与分割。同时,采用可伸缩管线生成多对象合成训练数据,以及深度学习模型的全面验证研究,并证明其在表现、预测能力等方面都具备领先水平。
- AdMix:一种混合采样数据增强方法用于神经机器翻译
本文提出了一种新颖的 NMT 数据增强方法 ——AdMix,将弱离散噪声引入原始句对,生成新的合成训练数据,并将其与原始样本软混合,实验证明,该方法可显著提高翻译效果,特别是与 back-translation 等方法联合使用时,改进效果进 - CVPR使用自混合图像检测 Deepfakes
本研究提出一种名为 SBIs 的新型合成训练数据,可以检测 Deepfakes。SBIs 由单一原始图像混合伪源和目标图像生成,从而复制普遍的伪造痕迹,同时鼓励分类器学习更通用和稳健的表示,从而提高模型对未知操作和场景的泛化效果。