本文旨在探索自动生成指定语言中的程序,依据输入输出行为生成程序,我们提出了一种新的方法来控制和评估合成数据分布的偏差,通过在 Karel 和小型计算器 DSL 上的实验表明,使用这些分布训练深度网络可以提高跨分布的泛化性能。
Dec, 2019
本论文介绍了一种用 SMT 求解器合成覆盖给定程序多样化行为的输入的新方法,并通过与现有合成数据生成程序的比较进行了案例研究,发现使用该方法生成的数据既能提高样例集的差异性,也能提高训练后的机器学习模型对未知数据的推广能力。
Nov, 2019
本研究展示了合成数据的各种发展和应用方向,其中讨论合成数据的基本计算机视觉问题、室内外场景合成及数据应用、机器人仿真环境、合成数据在隐私相关应用方面的重要性,同时概括了如何改进和生产合成数据的替代方法。其次,介绍了合成数据转化后的真实应用存在的问题,最后,着重强调了未来在合成数据研究方面的最有潜力的方向。
Sep, 2019
本文探讨了深度学习在解决人工智能无法处理的问题方面取得的巨大进展,以及智能系统解决程序合成问题的可能性,研究了程序归纳模型的演变历程以及其成功、失败和重构,最后对程序合成领域进行了对比研究,并提出了未来的研究建议。
Feb, 2018
本研究使用 CARLA 模拟器生成综合数据集,使其具有逼真的对抗性示例攻击,并使用处理和转换效果与真实世界图像相同的模拟攻击来说明其与现实的相关性。
Jul, 2022
本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中(停车位检测,车道检测和单 ocular 深度估计),实证研究一致表明,将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。
Apr, 2020
大量的表格数据由于隐私、数据质量和数据共享限制而未完全利用。本文介绍了 ProgSyn,这是第一个可编程的合成表格数据生成算法,它允许对生成的数据进行全面的自定义。通过在原始数据集上进行预训练并根据提供的规范进行差分可微损失函数的微调,ProgSyn 可以确保高质量的数据并满足自定义规范。实验评估结果表明,ProgSyn 在多个约束条件下取得了新的最先进水平,并且具有广泛的适用性。综合而言,ProgSyn 为生成受限制的合成表格数据提供了灵活、易用的框架,允许规范超越先前的工作的能力。
Jul, 2023
利用进化计算方法改善演绎程序合成工具 SuSLik 的搜索策略,以加速正确程序的推导,交叉验证结果显示改进后的方法可泛化应用于未预见的问题。
Nov, 2022
本文提出了一种用自然语言描述和少量输入 / 输出样例来生成程序的算法,称之为神经程序搜索。该算法将深度学习和程序合成领域的方法结合起来,通过设计丰富的领域特定语言和根据 Seq2Tree 模型进行指导的高效搜索算法。通过一个半合成的描述和测试案例数据集对该方法的质量进行了评估,结果表明我们的算法明显优于基线的带注意力的序列到序列模型。
本文提出了一种可扩展的程序合成框架,通过层级组合程序实现程序合成,该框架可以从输入 / 输出对中合成比之前更长、更复杂的程序,并通过任务嵌入空间和程序解码器将任务嵌入解码为程序。
Mar, 2023