报关进口申报数据集
本研究提出了一个新的合成身份证和旅行证件数据集(SIDTD),该数据集旨在帮助培训和评估伪造身份证件检测系统。通过在该数据集上训练先进模型并与较大但私有的数据集进行比较,有助于推动身份证件验证任务在图像分析领域取得进展。
Jan, 2024
本论文提出了一种名为 DAS 的记忆库平台,旨在促进多国海关部门之间的知识共享,以支持彼此。我们提出了一种领域自适应方法,共享作为原型的欺诈行为的可转移知识,同时保护本地贸易信息。通过测试超过 800 万个进口申报数据,发现参与国家可以通过共享知识获得 2-11 倍的欺诈检测收益。该系统具有实现可观的税收潜力和加强打击非法交易政策的意义。
Jan, 2022
本研究提出了一种通过微调预训练的稳定扩散模型生成合成数据集的框架,并用于对象检测模型的训练,研究结果表明,在苹果果园检测中,合成数据训练的对象检测模型的性能与真实世界图像训练得到的基线模型相似,这表明了合成数据生成技术作为深度模型训练的可行替代方法的潜力。
Jun, 2023
本研究提出了用于生成、注释和验证合成数据集的全面指南,着重于感知数据集大小、多样性、实用性和现实性的方法。此外,还通过创造一个涡轮压缩机数据集来说明这些指南的实际应用中的重要性。
May, 2023
使用大规模异构表格数据的对比学习型异常检测(CHAD)模型可以帮助检测到可疑的木材运输和模式,从而使政府机构和供应链参与者能够进一步调查异常的运输记录并打击非法砍伐。
Jul, 2022
本文介绍了数据中心化思维的重要性和隐私问题、提出了基于合成数据的解决方案,并开发了一种全面的测试方法(DAISYnt),以检验这种方法在高度监管的领域中的可行性和质量,例如金融和医疗保健。
Apr, 2022
本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中(停车位检测,车道检测和单 ocular 深度估计),实证研究一致表明,将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。
Apr, 2020
本文提出一个审核框架,围绕偏见和歧视预防、与真实数据的一致性、效用、鲁棒性和隐私保护进行综合评估,并引入信任指数对多个合成数据集进行排名,通过审核和认证报告连接不同利益相关者。
Apr, 2023
本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡,并研究了合成数据生成技术的变体,包括差分隐私生成方案,通过实验表明,合成数据训练的模型存在不同程度的偏差影响,且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。
May, 2021
本篇论文旨在通过 ArtiFact 大型数据集以及多分类分类方案和滤波步幅缩减策略,检测来自已知和未知生成器的合成图像,以增强合成图像探测器的泛化和鲁棒性。结果表明,该方案在 IEEE VIP Cup ICIP 2022 挑战赛上取得了明显的优势。
Feb, 2023