LargeST：用于大规模交通预测的基准数据集

Jun, 2023

LargeST：用于大规模交通预测的基准数据集

LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting

Xu Liu, Yutong Xia, Yuxuan Liang, Junfeng Hu, Yiwei Wang...

TL;DR介绍了一种包含 8600 个传感器的 5 年数据时间覆盖的 LargeST 基准数据集作为解决当前公共数据集限制（规模小、时间段短、缺乏元数据）所面临挑战的一种解决方案，并在其上进行深入数据分析以提取数据洞见和评估效能。

Abstract

traffic forecasting plays a critical role in smart city initiatives and has experienced significant advancements thanks to the power of deep learning in capturing non-linear patterns of traffic data. However, the

traffic forecasting deep learning smart cities dataset sensors

发现论文，激发创造

XXLTraffic: 扩展且极长的交通数据集用于超动态预测挑战

通过提供最长时间跨度和逐年增加的传感器节点数的数据，我们的新数据集 XXLTraffic 为时间序列和交通预测社区提供了一个新的视角，为解决超动态和极长预测问题设计模型提供了一个强大的平台。

Jun, 2024

统一长期时间序列预测基准

为了支持机器学习方法在预测时间序列数据方面的进展，我们提供了一个专门设计用于长期时间序列预测的全面数据集。我们将从不同的动态系统和真实记录中获取的一系列数据集进行了标准化，每个数据集都被分成了训练和测试轨迹，并设定了预定的回溯长度。通过对经典和先进的模型（即 LSTM，DeepAR，NLinear，N-Hits，PatchTST，和 LatentODE）进行广泛的基准分析，我们确定在不同场景中最有效的模型。我们的研究结果显示出这些模型之间有着有趣的性能比较，突显了模型效果与数据集有关的特性。值得注意的是，我们引入了一个定制的 latent NLinear 模型并且通过课程学习阶段提高了 DeepAR 的性能，它们在效果上始终优于其原始版本。

Sep, 2023

BuildingsBench: 一份包含 900K 座建筑的大规模数据集及其用于短期负荷预测的基准

本研究使用大规模建筑模拟数据集建立了预训练模型，实现短期负荷预测模型的泛化，进一步运用该模型提出了零样本与迁移学习等新颖任务，同时增强数据集多样性可提高预测性能。

Jun, 2023

大规模时空人员再识别：算法和基准评估

本研究介绍了一个包含 10,862 个身份和超过 228k 张图片的大规模时空人员再识别数据集 (LaST)，并在其上对 14 种再识别算法进行了综合性能评估和建立了一个有效的基线模型，该模型在较短时间和换衣场景的数据集上可以很好地推广。LaST 是目前时空范围最大的再识别数据集之一，可用于人类再识别任务的更加现实和具有挑战性的基准测试。

May, 2021

使用深度时空神经网络进行长期移动流量预测

本文提出一种专门用于精确预测网络范围内移动数据流量的时空神经网络（STN）结构和双 STN 技术（D-STN），通过在城市和农村地区 60 天的真实移动流量数据集上进行的实验，证明了所提出的（D-）STN 方法可以实现高达 10 小时的精确预测，并且与其他流行的预测方法相比，可以获得高达 61% 的更小预测误差。

Dec, 2017

评估面向水配水网络的数据驱动深度学习方法的大规模多用途基准数据集

为了评估数据驱动的深度学习方法，研究人员目前只能使用极少数通用基准数据集，大部分的研究提供的是配置文件而不是可直接使用的数据，因此每个实践者仍然需要遵循特定的数据生成方法，进行计算密集型的仿真以获取可用于模型训练和评估的数据。本论文提供了一系列包含多个小型和中型公开可用的水配网数据集，其中包括 Anytown、Modena、Balerma、C-Town、D-Town、L-Town、Ky1、Ky6、Ky8 和 Ky13。共提供 1394400 小时正常工况下的水配网数据，供学术界使用。

Apr, 2024

WeatherBench：面向数据驱动天气预测的基准数据集

本研究提出一个基于 ERA5 档案的天气预报基准数据集，为了方便机器学习模型的使用进行了处理，并提出了简单明了的评估指标，旨在加速数据驱动的天气预报研究。

Feb, 2020

使用大型出行数据的出行时间估计简单基线

利用出租车轨迹数据，提出一种简单的行程预估基准方法，可以用于导航和行程规划等多个领域，其效果优于现有的大规模实验平台（如 Bing Maps 和百度地图）的状态 - of-the-art 方法。

Dec, 2015

WEATHER-5K：全球大型站点天气数据集用于综合时间序列预测基准

全球站点天气预测（GSWF）对航空、农业、能源和灾害准备等各个领域至关重要。最近深度学习的进展通过基于公共气象数据优化模型，显著提高了天气预测的准确性。然而，现有的 GSWF 优化和基准数据集仍存在重大限制，如规模小、时间覆盖有限和缺乏全面的变量。为了应对这些挑战，我们推出了 WEATHER-5K 数据集，它包含来自全球 5,672 个气象站点的全面数据收集，涵盖了 10 年的时间间隔为一小时。该数据集包含多个关键的天气要素，为预测提供了更可靠、可解释的资源。此外，我们的 WEATHER-5K 数据集可作为评估现有著名预测模型的基准，扩展到 GSWF 方法之外，支持未来的时间序列研究挑战和机会。数据集和基准实现已公开在：这个 https 网址。

Jun, 2024

多元时间序列预测的进展：全面基准测试和异质性分析

使用 BasicTS 基准测试来解决多元时间序列预测中公正对比问题，并通过对丰富的多元时间序列数据集进行详尽的性能和效率比较，为研究人员选择和设计多元时间序列预测模型提供洞见。

Oct, 2023