Time2Vec:学习时间的向量表示
本文介绍了 TS2Vec,它是一种用于在任意语义级别学习时间序列表示的通用框架。通过对增强的上下文视图进行分层对比学习,TS2Vec 能够为每个时间戳提供强大的上下文表示,并通过简单的聚合来获得时间序列任意子序列的表示,通过实验评估表明,TS2Vec 在时间序列分类、时间序列预测和异常检测任务中具有良好的性能。
Jun, 2021
我们提出了时间向量,这是一种在新的时期自定义语言模型的简单工具。时间向量通过在单个时间段(例如一年或一个月)的数据上对语言模型进行微调,然后减去原预训练模型的权重来创建。我们的实验结果表明,这个向量指定了在权重空间中的一个方向,在该时间段的文本上可以提高性能。在连续的时间段上定制的时间向量似乎在流形中靠得更近。利用这个结构,我们可以在时间向量之间插值,从而产生在介入和未来时间段上表现更好的新模型,而无需进行额外的训练。我们的研究结果表明,时间被编码在微调模型的权重空间中。
Dec, 2023
时间序列分析与视觉或自然语言处理在定义有意义的自监督学习任务方面具有根本的区别。为了解决这个问题,我们引入了一种称为 Series2Vec 的自监督表示学习的创新方法,通过自监督任务在时间和频谱域中对两个序列之间的相似性进行预测,而不是基于手工数据增强的自监督方法。我们的实验证明,Series2Vec 在大规模真实世界数据集和 UCR/UEA 存档上的表现优于当前最先进的自监督技术,同时在有限标记数据集上具有高效性。此外,我们将 Series2Vec 与其他表示学习模型进行融合,可以提高时间序列分类的性能。
Dec, 2023
该研究探究了在预训练中引入时间信息以提高 NLP 和 IR 任务性能的方法,使用长跨度的新闻文章作为训练语料库,提出了 TimeBERT,并且 TimeBERT 在时间相关任务上表现优异,超过了 BERT 和其他预训练模型。
Apr, 2022
TimeNet 是一个基于循环神经网络的深度非监督学习模型,使用序列到序列模型从多个时间序列中提取特征,可用作时间序列的通用特征提取器,并且通过实验证明,使用 TimeNet 特征提取器训练的分类器能够显著提高分类效果。
Jun, 2017
Tile2Vec 是一种无监督的表示学习算法,旨在为地理空间分布数据提供类似于自然语言处理中词向量表示和预训练网络的方法,通过学习分布假设将相似空间数据转换为语义上有意义的向量表示,并演示了其在下游分类任务中的显著表现提升。
May, 2018
通过一种无监督方法,提出了在长度和标签稀疏性方面都很具有可扩展性的编码器,通过时间负采样的三元损失组合将其与基于因果膨胀卷积的编码器结合,用于生成变长时间序列的通用表示,表现出了良好的质量、可转移性和实用性。
Jan, 2019
本文提出一种新颖的深度神经网络架构 Speech2Vec,用于从语音语料库中学习固定长度的音频片段矢量表示,其向量包含有关底层口语词汇的语义信息,并且如果它们的对应的底层口语词汇在语义上相似,则在嵌入空间中靠近其他向量。 Speech2Vec 的设计基于 RNN 编码器 - 解码器框架,并借用 skipgrams 或连续词袋的方法进行训练。直接从语音中学习单词嵌入使 Speech2Vec 能够利用语音中的语义信息,在 13 个广泛使用的单词相似性基准测试中评估和分析了学习的单词嵌入,并且胜过了从转录中学习的 Word2Vec 单词嵌入。
Mar, 2018
本文提出了一种基于 Word2Vec 模型的新启发式方法来训练时间词嵌入,即使用不随时间变化的向量作为参考来简化训练过程以提高效率,并在现有数据集上进行的实验结果表明该方法比其他可比较方法表现更好且对语料库大小有更高的鲁棒性。
Jun, 2019
提出了一种基于分布式语义嵌入的主题建模方法 top2vec,不需要预定义的停用词表、词干提取或词形还原等预处理,能够自动确定主题数目,有效地提取语义信息并以主题向量的形式呈现。实验结果表明,top2vec 比传统的生成模型更加优秀。
Aug, 2020