使用 Procrustes 验证集合进行共线数据集增强

Dec, 2023

使用 Procrustes 验证集合进行共线数据集增强

Collinear datasets augmentation using Procrustes validation sets

Sergey Kucheryavskiy, Sergei Zhilin

TL;DR我们提出了一种新的方法来增加数字和混合数据集，通过利用交叉验证重采样和潜变量建模来生成额外的数据点。该方法对于具有中度到高度共线性的数据集特别有效，因为它直接利用了这个属性进行生成。该方法简单、快速，并且有很少的参数，在文中已经证明无需特定调整。我们对多个真实数据集进行了测试；在这里，我们报告了两种情况的详细结果，即基于近红外光谱的切碎肉中蛋白质的预测（完全数字数据，具有高度共线性）和因冠状动脉造影而被提及的患者的区分（混合数据，包括数字和分类变量，并具有中度共线性）。在这两种情况下，我们使用人工神经网络来开发回归和区分模型。结果显示模型性能有明显提高；因此，在预测肉类蛋白质时，拟合增强数据的模型可以将独立测试集的均方根误差减少 1.5 至 3 倍。

Abstract

In this paper, we propose a new method for the augmentation of numeric and mixed datasets. The method generates additional data points by utilizing cross-validation resampling and latent variable modeling. It is

data augmentation numeric datasets mixed datasets latent variable modeling collinearity

发现论文，激发创造

数学对象的数据增强

通过数据平衡和数据增广来优化针对非线性多项式问题中的变量排序问题，实现了平均提高 63％的机器学习模型准确性，同时探讨了其在其他数学机器学习应用中的潜在应用。

Jul, 2023

数据流形中的多线性核回归和插补

本文介绍了一种基于核的高效多线性非参数逼近框架，应用于动态磁共振成像（dMRI）的数据回归和插值。该多线性模型具有降维、高效计算和提取数据模式和几何形状等特点，在严重欠采样的 dMRI 数据测试中较之以往的方法，包括流行的数据建模方法及最近的张量和深度图像先验方案，均表现出了显著的效率和准确性的提升。

Apr, 2023

足够好的组合数据增强

本文提出了一种简单的数据增强协议，旨在为条件和无条件序列模型提供组合归纳偏置。经过测试，该协议可以应用于神经序列到序列模型和 n-gram 语言模型，使得错误率和困惑度均有所降低。

Apr, 2019

一种高度相关注释的拉曼光谱数据增强方案

通过添加数据点并利用峰面积特性，使用卷积神经网络提高了在 Raman 光谱中监测底物、生物量和 PHA 生物聚合物浓度的能力。

Feb, 2024

保持相关性：一种生成合成数据的统计方法

我们提出了一种生成具有统计代表性的合成数据的方法，其主要目标是在合成数据集中保持原始数据集中存在的特征相关性，同时以舒适的隐私级别以满足特定客户需求。

Mar, 2024

利用标注数据增强几何插值来学习蛋白质折叠的集体变量

通过使用物理启发度量标准生成模拟蛋白质折叠转变的地势插值，我们提出了一种无需模拟的数据增强策略，以改善采样效率，并在转变状态数据有限且噪音较大时，通过插值进展参数引入基于回归的学习方案来构建 Collective Variable 模型，其性能优于基于分类器的方法。

Feb, 2024

改进数据集简化中的伪相关性

调研发现，数据集压缩过程中原始数据集中的颜色和背景偏差会被放大，而污染偏差会被抑制；为减少偏差放大，我们提出了一种基于样本重新加权方案的简单但高效方法，实证结果显示其有效性高于最先进的去偏方法。

Jun, 2024

基于标定的多元回归及其在神经语义基础发现中的应用

提出一种名为 CMR 的校准的多元回归方法，可用于拟合高维度的多元回归模型，并通过对每个回归任务进行正则化校准以获得改进的有限样本性能和调优不敏感性，已在大脑活动预测问题上展示出很好的竞争力，并在数值模拟中始终优于其他高维度的多元回归方法。

May, 2013

利用半监督学习开发合成数据以处理小规模和不平衡数据集

本文研究了通过模式的凸组合生成合成数据以及在半监督学习框架中利用这些数据作为无监督信息的效果，以支持小的高维度数据集和不平衡学习问题，而无需标记合成示例。作者在 53 个二元分类数据集上进行实验，结果表明该方法支持半监督学习中的聚类假设，对于小型高维度数据集和不平衡学习问题表现出色。

Mar, 2019

建模健康记录的数据增强方法及其在氯吡格雷治疗失败检测中的应用

我们提出了一种新颖的数据增广方法来解决在使用自然语言处理算法对患者的电子健康记录中建模纵向模式时面临的数据稀缺挑战。该方法通过重新排列访问中医疗记录的顺序来生成增广数据，在顺序不明显的情况下，如果有的话。将该方法应用于氯吡格雷治疗失败检测任务中，在预训练过程中使用增广技术使得 ROC-AUC 指标（从 0.908—— 没有增广到 0.961—— 使用增广）提升了 5.3％。同时，通过增广技术在有限标记训练数据的情况下，还能够改善精细调整过程中的性能。

Feb, 2024