latrend:长期数据聚类框架
本文针对多元时间序列系统,提出了一种基于聚类的方法,利用滑动窗口的方式从输入数据中提取子序列时间序列,并采用各种聚类技术和包括非线性在内的多种相似性度量方法,从而稳健地检测出如金融市场和环境数据等不同领域中的时序数据中的先导关系。
May, 2023
该研究介绍了一个名为 lcmm 的 R 包,该包提供一系列函数,能够基于线性混合模型理论来估计多种数据模型,其中包括了高斯纵向结果 (hlme)、曲线和有序单变量纵向结果 (lcmm)、曲线多变量结果 (multlcmm)、联合潜在类混合模型 (Jointlcmm) 等;该包还提供最大似然估计函数,以及可能包括其负数的二次导数基于参数和似然稳定性的严格收敛标准;此外,该包还提供多种与后拟函数有关的函数,如拟合度分析、分类、预测轨迹、个体动态预测和预测精度评估等,该文实际上是该包的同伴文件,旨在通过数据集的实际示例等方式,介绍每个数据模型的家族、估计技术和一些实施细节。
Mar, 2015
该研究提出了一种基于线性法则的特征空间转换(LLT)算法,用于辅助单变量和多变量时间序列分类。LLT R 软件包可以将训练集中的线性法则应用于测试集,从而实现快速的特征转换。
Apr, 2023
在医疗保健领域,通过收集多变量时间序列的患者数据,可以全面了解患者的健康状况。在缺少标签的情况下,可以利用预测模型预测未来值,并且形成潜在的聚类空间。我们比较了两种模型(M AGMAC LUST 和 DGM2),通过使用 Withing 的数据集进行评估,前者聚类整个时间序列,而后者允许个体的群组归属随时间改变(即动态聚类)。
Dec, 2023
为了支持机器学习方法在预测时间序列数据方面的进展,我们提供了一个专门设计用于长期时间序列预测的全面数据集。我们将从不同的动态系统和真实记录中获取的一系列数据集进行了标准化,每个数据集都被分成了训练和测试轨迹,并设定了预定的回溯长度。通过对经典和先进的模型(即 LSTM,DeepAR,NLinear,N-Hits,PatchTST,和 LatentODE)进行广泛的基准分析,我们确定在不同场景中最有效的模型。我们的研究结果显示出这些模型之间有着有趣的性能比较,突显了模型效果与数据集有关的特性。值得注意的是,我们引入了一个定制的 latent NLinear 模型并且通过课程学习阶段提高了 DeepAR 的性能,它们在效果上始终优于其原始版本。
Sep, 2023
本研究提出一种 LAbel-efficienT incidenT phEnotyping (LATTE) 算法,旨在通过使用病程数据中的先前训练的语义嵌入向量作为先验知识,并使用反向传播和半监督联合学习,从而准确注释临床事件的时间,从而提高电子健康记录 (EHR) 数据支持真实世界证据 (RWE) 研究的可靠性。通过在三个分析中进行评估,在所有设置中,LATTE 相对于基准方法(如 SAMGEP 和 RETAIN)均获得了实质性的改进。
May, 2023
本文提出了一种方法来建模词群之间的流动行为、识别不同用户群体之间词汇聚类的先导滞后关系,使用基于动态时间扭曲的改进 Bayesian 条件协整来学习不同群体词汇之间的联系,采用基于张量的技术将这些链接单词聚类到不同的簇(ideas)中并跟踪 ideas 的流动,经过实验验证,该方法相对于传统聚类技术和精度更高,可用于帮助用户了解社交媒体上不同用户群体之间想法的流动。
Dec, 2015
研究软件在科学研究的各个阶段中扮演的关键角色,比较和分析了 2021 年和 2022 年收集的所有 R 包的引用格式的长期数据集,以了解 R 语言包的引文格式,以及引文随时间的演变。此外,对引用为软件的期刊文章的学科进行了深入分析,旨在为对软件引用复杂性的更好理解,未来的软件引用政策和基础设施提供启示。
Jul, 2023
本研究介绍了一种用于时序研究语料库的应用程序,名为 DRIFT,可用于追踪研究趋势和发展。该工具旨在分析关键词提取、预测趋势、单词的语义漂移等现象。我们在 cs.CL corpus 进行了案例研究,以演示此工具的实用性和效果。
Jul, 2021
提出一种利用基于 LASSO 的线性模型自动且同时选择相关特征和时间点的方法以及考虑数据非 i.i.d 性质的计算结果,并展示该方法比现有技术具有更好的表现。
Oct, 2016