数学对象的数据增强

Jul, 2023

Data Augmentation for Mathematical Objects

Tereso del Rio, Matthew England

TL;DR通过数据平衡和数据增广来优化针对非线性多项式问题中的变量排序问题，实现了平均提高 63％的机器学习模型准确性，同时探讨了其在其他数学机器学习应用中的潜在应用。

Abstract

This paper discusses and evaluates ideas of data balancing and data augmentation in the context of mathematical objects: an important topic for both the symbolic computation and satisfiability checking communitie

data balancing data augmentation mathematical objects machine learning variable ordering

发现论文，激发创造

符号计算机器学习中的数据集与范式教训：基于 CAD 的案例研究

符号计算算法及其在计算机代数系统中的实现通常包含不影响输出正确性但可能显著影响资源需求的选择，这些选择可以通过机器学习模型针对每个问题单独完成，本研究报告了在符号计算中使用机器学习的经验教训，特别强调在机器学习之前分析数据集的重要性以及可能使用的不同机器学习范例，通过一个特定案例研究 —— 圆柱代数分解的变量排序选择来呈现结果，并预期所得经验教训适用于符号计算中的其他决策，我们利用一个现有的从应用中获取的示例数据集发现对于变量排序决策存在一定的不平衡，我们引入了一个多项式系统问题的增广技术，使得数据集平衡并进一步扩增，从而分别平均提高了机器学习结果 28% 和 38%，随后展示了如何将用于问题的现有机器学习方法 —— 分类方法重新转换为回归范例，虽然这对性能没有根本改变，但扩大了方法可以应用于的范围。

Jan, 2024

锤炼出完美的求解器：数学问题求解中的数据增强

本文介绍了一系列基于替换和释义的数据增广技术，通过将现有数学问题数据集的规模提高五倍，我们在三种全球领先的数学问题求解器上进行了广泛的实验。结果显示，所提出的方法可以提高现有解算器的泛化性和鲁棒性，并在基准数据集上平均使结果显着提高了五个百分点。此外，经数据增广训练的解算器在挑战测试集上表现得更好，并且仅基于表层线索不能较好地解决这一问题。

Apr, 2022

数据增强的群论框架

本文提出了一种理论框架，证明了数据增强等效于对保持数据分布近似不变的某一群轨道的平均操作，从而能够减少方差，研究了经验风险最小化、指数族、线性回归和某些双层神经网络这些领域中数据增强的应用。

Jul, 2019

数据增强作为特征操作

本文研究数据增强对学习过程动态的影响，发现数据增强可以改变各种特征的相对重要性，特别是对于神经网络等非线性模型更为明显，可以被看作是特征操作。

Mar, 2022

探究数据增强在不平衡数据中的作用

本研究通过实验检验了数据增强对神经网络、支持向量机和逻辑回归模型的影响，发现它可以帮助模型更好地泛化，在处理不平衡数据分类问题时效果显著。其中一个机理是通过促进数据的差异性，使得机器学习模型能够将数据的变化与标签关联起来，从而提高了模型的泛化能力。

Apr, 2023

基于语义的数学问题数据增强

本文提出了一种基于数据增强的方法，通过知识引导的实体替换和逻辑引导的问题重组产生不同种类的本地差异数据，从而帮助提高当前神经模型的泛化能力。实验证明了我们的方法的必要性和有效性。

Jan, 2022

贝叶斯数据增强方法用于深度模型学习

提出了一种基于贝叶斯公式，利用广义蒙特卡洛期望最大化算法和生成对抗网络的方法，能更好地生成新的标注训练样本，并在 MNIST，CIFAR-10 和 CIFAR-100 的数据集中取得了优于现有数据增强方法和 GAN 模型的分类结果。

Oct, 2017

神经网络在线聊天响应选择的数据增强

探讨在神经对话响应选择任务中使用排列和翻转两种数据增强代理，对多个数据集（包括中英文）的不同模型进行训练以提高泛化能力，并通过将原始和合成的数据进行组合来进行预测，实证结果表明，在全尺度和小尺度设置下，我们的方法可以在基准模型上获得 1 至 3 个 recall-at-1 点。

Sep, 2018

学习数据操作以进行增强和加权

本文介绍了一种新的方法，它支持使用相同的梯度算法学习不同的数据操作方案。这种方法基于监督学习和强化学习之间的联系，并调整来自强化学习的现成奖励学习算法，用于联合数据操作学习和模型训练。通过学习文本转换网络和动态适应数据样本重要性来展示数据扩充和数据加权，实验表明所得到的算法明显提高了图像和文本分类的性能。

Oct, 2019

使用 Procrustes 验证集合进行共线数据集增强

我们提出了一种新的方法来增加数字和混合数据集，通过利用交叉验证重采样和潜变量建模来生成额外的数据点。该方法对于具有中度到高度共线性的数据集特别有效，因为它直接利用了这个属性进行生成。该方法简单、快速，并且有很少的参数，在文中已经证明无需特定调整。我们对多个真实数据集进行了测试；在这里，我们报告了两种情况的详细结果，即基于近红外光谱的切碎肉中蛋白质的预测（完全数字数据，具有高度共线性）和因冠状动脉造影而被提及的患者的区分（混合数据，包括数字和分类变量，并具有中度共线性）。在这两种情况下，我们使用人工神经网络来开发回归和区分模型。结果显示模型性能有明显提高；因此，在预测肉类蛋白质时，拟合增强数据的模型可以将独立测试集的均方根误差减少 1.5 至 3 倍。

Dec, 2023