能否信任你的模型评估？通过合成测试数据提升模型评估

Oct, 2023

能否信任你的模型评估？通过合成测试数据提升模型评估

Can You Rely on Your Model Evaluation? Improving Model Evaluation with Synthetic Test Data

Boris van Breugel, Nabeel Seedat, Fergus Imrie, Mihaela van der Schaar

TL;DR评估机器学习模型在多样化和少数群体上的性能对于确保公平和可靠的实际应用至关重要。本研究引入了一种深度生成建模框架 3S Testing，通过为小型子群生成合成测试集并模拟分布偏移，促进模型评估。实验证明，3S Testing 在估计少数群体和可能的分布偏移的模型性能方面优于传统基准，包括仅使用真实测试数据，而且 3S 的性能估计还提供了区间，相对于现有方法，具有更好的准确性。总的来说，这些结果引发了一个问题，是否需要从有限的真实测试数据转向合成测试数据的新方法。

Abstract

Evaluating the performance of machine learning models on diverse and underrepresented subgroups is essential for ensuring fairness and reliability in real-world applications. However, accurately assessing

machine learning models model performance fairness synthetic test data distributional shifts

发现论文，激发创造

关于合成数据的等效性、可替代性和灵活性

通过实证研究，我们调查了合成数据在实际场景中的有效性，发现合成数据不仅提高了模型性能，而且在不损失性能的情况下能够替代真实数据，展示出在现实问题中采集真实数据的效率问题上合成数据的潜力，并证明了相对灵活的数据生成器对于提升模型适应性，缩小领域差距的重要性。

Mar, 2024

从真实数据到合成数据的转换：量化模型中的偏差

本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡，并研究了合成数据生成技术的变体，包括差分隐私生成方案，通过实验表明，合成数据训练的模型存在不同程度的偏差影响，且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。

May, 2021

合成数据：能否信任统计估计器？

在研究中，我们强调了推论效用的重要性，并提供了反对从合成数据（处理这些数据就好像它们是真实观察到的一样）进行天真推断的实证证据，我们认为即使估计是无偏的，阳性结果的率（类型 1 错误）将会不可接受地高，一个原因是低估了真实标准误差，它可能会随着更大样本量而逐渐增加，导致收敛较慢。这对于深度生成模型尤其是一个问题。在发布合成数据之前，开发针对这样的数据的统计推断工具至关重要。

Dec, 2023

合成数据生成模型的评估框架

通过提出一个新的评估框架，本研究旨在评估合成数据生成模型的能力以生成高质量的数据，利用统计和理论信息来比较模型的排名，并展示了该框架在两个应用场景下的实用性。

Apr, 2024

合成数据是否足够？基于合成图像训练模型的稳健性评估

通过提供第一个三类合成克隆模型（即有监督、自监督和多模态）的基准测试，我们发现现有的合成的自监督和多模态克隆模型在多种稳健性指标上与真实图像基线相媲美甚至超越，但合成克隆模型对对抗性噪声和真实世界噪声更加敏感，同时发现同时使用真实数据和合成数据可以进一步增加稳健性，并且生成合成图像的提示选择对合成克隆模型的稳健性起到重要作用。

May, 2024

语言模型生成的合成数据的最佳实践和经验教训

人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性，而由于数据稀缺、隐私问题和高成本，获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现，通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述，并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性，并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。

Apr, 2024

S3Eval：一套针对大型语言模型的综合、可扩展、系统评估套件

使用合成任务来评估大型语言模型（LLMs）的研究方法 S3Eval，在 S3Eval 与真实世界基准测试之间存在强相关性，同时揭示了模型性能的一些深度分析和反直觉趋势。

Oct, 2023

合成数据，真实误差：如何（不）发布和使用合成数据

本文介绍了通过生成模型生成合成数据，并探讨了生成模型对下游机器学习任务的影响。提出了 Deep Generative Ensemble (DGE) 框架，该框架可以学习生成过程模型参数的后验分布，从而在模型训练、评估和不确定性量化方面取得了显著的改进，特别对于稀有类别和原始数据的低密度区域。

May, 2023

模型相似性降低测试集过度使用

本文证明了在大尺度图像分类基准测试中，最新的提出的模型虽然其准确性相异，但其预测相似性很高，这一相似性缓解了过拟合问题。作者还根据这一相似性给出了一种新的泛化界限的数学模型，能够更好地应用于机器学习中测试数据的重复使用问题。

May, 2019

使用合成数据增广消除数据集偏差

本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中（停车位检测，车道检测和单 ocular 深度估计），实证研究一致表明，将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。

Apr, 2020