Jul, 2024

数据稀缺场景下合成表格数据生成的人工归纳偏好

TL;DR通过在有限真实数据环境下使用深度生成模型(Deep Generative Models, DGMs)生成逼真可靠的合成表格数据,该论文提出了一种新颖的方法,通过转移学习和元学习技术在 DGM 中生成人工归纳偏差。其中,采用预训练和模型平均等转移学习策略优于采用元学习方法,例如模型无关元学习和领域随机搜索。通过验证方法,使用变分自动编码器和生成对抗网络两种最先进的 DGM,表明我们的人工归纳偏差可提供更高质量的合成数据,通过 Jensen-Shannon 散度测量,相对收益可达 50%。该方法具有广泛适用性于各种 DGM 和机器学习任务,特别适用于数据稀缺常见的领域,如卫生保健和金融。