时间序列数据增强的不平衡学习问题
本文系统地回顾了多种用于时间序列数据的数据增强方法,并通过对它们的优点和局限性进行结构化的概述来比较它们的性能,包括在不同任务下的时间序列分类、异常检测和预测,并讨论并强调了五个未来的研究方向。
Feb, 2020
我们的研究探讨了数据增强对多变量时间序列模型性能的影响,重点关注 UCR 存档中的数据集。尽管这些数据集规模有限,但我们通过使用 Rocket 和 InceptionTime 模型,在 13 个数据集中有 10 个实现了分类准确度的提升。这突显了充足数据在训练有效模型中的重要作用,并与计算机视觉领域取得的进展相一致。我们的工作在创新的方式下将现有方法适应并应用于多变量时间序列分类领域。我们对这些技术的全面探索为解决时间序列分析中的数据稀缺性设立了新标准,强调多样化的增强策略对于发掘传统和深度学习模型的潜力至关重要。此外,通过细致分析和应用各种增强技术,我们证明了战略性的数据丰富可以提高模型准确度。这不仅为未来的时间序列分析研究确立了基准,还强调了在有限数据可用性情况下采用多样化增强方法以提高模型性能的重要性。
Jun, 2024
研究了在时间序列的分类和回归问题中,使用不同的技术进行数据增强的方法,特别关注了使用扩散概率模型和元属性来生成合成数据的可行性,结果表明该方法在训练分类和回归模型时具有很高的实用性。
Dec, 2023
本论文调研了时间序列数据增强技术及其在神经网络时间序列分类中的应用,其中提出了四种基于变换、模式混合、生成模型和分解方法的方法, 并在 128 个时间序列分类数据集上使用六种不同类型的神经网络对 12 种时间序列数据增强方法进行了实证评估,以分析每种数据增强方法的特点、优缺点和建议,并旨在帮助选择神经网络应用的时间序列数据增强方法
Jul, 2020
我们介绍了一种名为 TSAA 的时间序列自动增强方法,用于应对长期预测中的过拟合挑战,并在挑战性的一元和多元预测基准问题上表现出卓越的性能,建议将其整合到预测流程中。
May, 2024
本文提出了 InfoBoost—— 一种高度灵活的跨领域数据合成框架,具有时间序列表示学习能力。我们开发了一种基于合成数据的方法,能够在无需真实数据的情况下进行模型训练,并超越了使用真实数据进行训练的模型性能。此外,我们训练了一个基于合成数据的通用特征提取器,适用于所有时间序列数据。我们的方法克服了多个来源的干扰,如周期性信号、噪音干扰和超出采样窗口能力的长期特征。通过实验证明,我们的非深度学习合成数据能够使模型实现卓越的重构性能和通用的显性表示提取,而无需真实数据。
Feb, 2024
利用 OnDAT (即时数据增强) 方法,在深度学习模型的训练和验证过程中动态生成不断变化的增强数据集,以减少过拟合并提高预测性能。通过实验证明,与在训练之前应用数据增强的策略以及不采用数据增强的策略相比,OnDAT 方法能够获得更好的预测性能。
Apr, 2024
本文提出了一种结合了谱分解和时间分解的数据增强方法,可用于预测型时间序列数据的生成,实验表明该方法在五个真实的数据集上均取得了比其他基准模型和增强方法更好的表现。
Mar, 2023
提出了一种基于数据增强的全局预测模型 (GFM) 方法,通过三种时间序列增强技术生成一系列时间序列,并通过聚合和迁移学习方法将所得到的知识转移至原始数据集,实现在有限数据量情况下提高预测精度的目的。在比赛和实际数据集的评估中,该算法显著提高了 GFM 模型的基准精度,超过了现有基于单变量预测的方法。
Aug, 2020