数学对象的数据增强
符号计算算法及其在计算机代数系统中的实现通常包含不影响输出正确性但可能显著影响资源需求的选择,这些选择可以通过机器学习模型针对每个问题单独完成,本研究报告了在符号计算中使用机器学习的经验教训,特别强调在机器学习之前分析数据集的重要性以及可能使用的不同机器学习范例,通过一个特定案例研究 —— 圆柱代数分解的变量排序选择来呈现结果,并预期所得经验教训适用于符号计算中的其他决策,我们利用一个现有的从应用中获取的示例数据集发现对于变量排序决策存在一定的不平衡,我们引入了一个多项式系统问题的增广技术,使得数据集平衡并进一步扩增,从而分别平均提高了机器学习结果 28% 和 38%,随后展示了如何将用于问题的现有机器学习方法 —— 分类方法重新转换为回归范例,虽然这对性能没有根本改变,但扩大了方法可以应用于的范围。
Jan, 2024
本文介绍了一系列基于替换和释义的数据增广技术,通过将现有数学问题数据集的规模提高五倍,我们在三种全球领先的数学问题求解器上进行了广泛的实验。结果显示,所提出的方法可以提高现有解算器的泛化性和鲁棒性,并在基准数据集上平均使结果显着提高了五个百分点。此外,经数据增广训练的解算器在挑战测试集上表现得更好,并且仅基于表层线索不能较好地解决这一问题。
Apr, 2022
本文提出了一种理论框架,证明了数据增强等效于对保持数据分布近似不变的某一群轨道的平均操作,从而能够减少方差,研究了经验风险最小化、指数族、线性回归和某些双层神经网络这些领域中数据增强的应用。
Jul, 2019
本研究通过实验检验了数据增强对神经网络、支持向量机和逻辑回归模型的影响,发现它可以帮助模型更好地泛化,在处理不平衡数据分类问题时效果显著。其中一个机理是通过促进数据的差异性,使得机器学习模型能够将数据的变化与标签关联起来,从而提高了模型的泛化能力。
Apr, 2023
本文提出了一种基于数据增强的方法,通过知识引导的实体替换和逻辑引导的问题重组产生不同种类的本地差异数据,从而帮助提高当前神经模型的泛化能力。实验证明了我们的方法的必要性和有效性。
Jan, 2022
提出了一种基于贝叶斯公式,利用广义蒙特卡洛期望最大化算法和生成对抗网络的方法,能更好地生成新的标注训练样本,并在 MNIST,CIFAR-10 和 CIFAR-100 的数据集中取得了优于现有数据增强方法和 GAN 模型的分类结果。
Oct, 2017
探讨在神经对话响应选择任务中使用排列和翻转两种数据增强代理,对多个数据集(包括中英文)的不同模型进行训练以提高泛化能力,并通过将原始和合成的数据进行组合来进行预测,实证结果表明,在全尺度和小尺度设置下,我们的方法可以在基准模型上获得 1 至 3 个 recall-at-1 点。
Sep, 2018
本文介绍了一种新的方法,它支持使用相同的梯度算法学习不同的数据操作方案。这种方法基于监督学习和强化学习之间的联系,并调整来自强化学习的现成奖励学习算法,用于联合数据操作学习和模型训练。通过学习文本转换网络和动态适应数据样本重要性来展示数据扩充和数据加权,实验表明所得到的算法明显提高了图像和文本分类的性能。
Oct, 2019
我们提出了一种新的方法来增加数字和混合数据集,通过利用交叉验证重采样和潜变量建模来生成额外的数据点。该方法对于具有中度到高度共线性的数据集特别有效,因为它直接利用了这个属性进行生成。该方法简单、快速,并且有很少的参数,在文中已经证明无需特定调整。我们对多个真实数据集进行了测试;在这里,我们报告了两种情况的详细结果,即基于近红外光谱的切碎肉中蛋白质的预测(完全数字数据,具有高度共线性)和因冠状动脉造影而被提及的患者的区分(混合数据,包括数字和分类变量,并具有中度共线性)。在这两种情况下,我们使用人工神经网络来开发回归和区分模型。结果显示模型性能有明显提高;因此,在预测肉类蛋白质时,拟合增强数据的模型可以将独立测试集的均方根误差减少 1.5 至 3 倍。
Dec, 2023