Oct, 2023

MMM和MMMSynth:异构表格数据的聚类和合成数据生成

TL;DR我们提供了一种针对异构表格数据集的聚类和合成数据生成的新算法。我们展示了一种名为MMM(Madras混合模型)的创新EM-based聚类算法,该算法在确定合成异构数据的聚类和恢复真实数据的结构方面优于标准算法。基于此,我们展示了一种名为MMMsynth的合成表格数据生成算法,该算法对输入数据进行预聚类,并在输入列中假定簇特定的数据分布来生成簇特定的合成数据。我们通过测试标准机器学习算法在合成数据上进行训练并在实际发布的数据集上进行测试来对此算法进行基准测试。我们的合成数据生成算法优于其他文献中的表格数据生成器,并接近仅使用真实数据进行训练的性能表现。