DSLOB：一种用于基准测试分布转移下预测算法的合成限价订单簿数据集

Nov, 2022

DSLOB：一种用于基准测试分布转移下预测算法的合成限价订单簿数据集

DSLOB: A Synthetic Limit Order Book Dataset for Benchmarking Forecasting Algorithms under Distributional Shift

Defu Cao, Yousef El-Laham, Loc Trinh, Svitlana Vyetrenko, Yan Liu

TL;DR使用多智能体的市场仿真器构建了一种合成的 LOB 数据集 DSLOB，用于对高频时间序列数据中的分布偏移进行对比实验，结果反映出需要增加研究人员的努力，以开发出对分布偏移具有鲁棒性的算法。

Abstract

In electronic trading markets, limit order books (LOBs) provide information about pending buy/sell orders at various price levels for a given security. Recently, there has been a growing interest in using LOB data for resolving downstream machine learning tasks (e.g., →

limit order book machine learning synthetic dataset forecasting distributional shift

发现论文，激发创造

重新思考外部分布检测的评估：索利斯悖论

本研究构建了一个名为 Incremental Shift OOD（IS-OOD）的基准，通过基于提出的语言对齐图像特征分解（LAID）的移位测量方法，将测试样本分成不同的子集，相对于 ID 数据集具有不同的语义和协变量移位程度，以解决当前存在的超出分布（OOD）检测基准中的 Sorites 悖论问题。此外，还构建了包含更多多样的协变量内容的高质量生成图像的 Synthetic Incremental Shift（Syn-IS）数据集，以补充 IS-OOD 基准。研究评估了在本基准上进行的当前 OOD 检测方法，并发现几个重要结论：（1）大多数 OOD 检测方法的性能随着语义移位的增加而显著提高；（2）某些方法如 GradNorm 在做出决策时较少依赖于语义移位，可能具有不同的 OOD 检测机制；（3）图像中过度的协变量移位也可能被某些方法视为 OOD。

Jun, 2024

自然语言处理中的分布外鲁棒性再探：基准、分析和 LLMs 评估

本文重新审视了自然语言处理领域中关于评估 out-of-distribution 鲁棒性的相关研究，并提出了一个基准套件（BOSS），通过其中包含的 5 项任务和 20 个数据集来评估 pre-trained large language models 和 5 种经典方法在分布转移时的性能，结果发现在 ID 示例中，微调特定领域模型的性能明显优于 LLMs，在 OOD 示例中，优先考虑具有上下文学习的 LLMs 结果更好，但大规模的微调和大型 LLMs 都面临着有效解决下游任务的挑战。

Jun, 2023

GDL-DS：基于分布偏移的几何深度学习基准

提出了 GDL-DS，一个综合的基准评估，旨在评估 GDL 模型在具有分布偏移的场景中的性能，涵盖多样的科学领域，包括粒子物理学、材料科学和生物化学，并研究了三个层次的信息访问从测试数据中获取，对于 DGL 研究者和领域从业者在应用中使用 DGL 提供了深入分析的评估结果来提供见解。

Oct, 2023

OODRobustBench：基于分布偏移的对抗鲁棒性评估与分析

现有研究在提高对抗鲁棒性方面取得了很大进展，但通常只在与训练数据相同分布的数据上进行测试，即内分布（ID）测试。然而，如何在输入分布转移（即出分布（OOD）测试）下实现这种鲁棒性的泛化仍不清楚。因此，我们提出了一个名为 OODRobustBench 的基准来全面评估 OOD 对抗鲁棒性，使用 23 种数据集级的转移（即输入分布中的自然转移）和 6 种威胁级的转移（即未知的对抗威胁模型）。OODRobustBench 用于评估 706 个稳健模型，使用 60.7K 个对抗性评估。这个大规模分析显示：1）对抗鲁棒性在 OOD 泛化问题上存在严重问题；2）ID 鲁棒性与 OOD 鲁棒性在许多分布转移下呈正线性相关，这使得可以从 ID 鲁棒性预测 OOD 鲁棒性。基于这一点，我们能够预测现有强化训练方案的 OOD 鲁棒性的上限。研究结果表明，实现 OOD 鲁棒性需要设计超出传统方法的新方法。最后，我们发现额外数据、数据增强、先进的模型架构和特定的正则化方法可以提高 OOD 鲁棒性。值得注意的是，与基准相比，发现的训练方案在威胁转移下表现出明显更高的鲁棒性，同时保持高的 ID 鲁棒性，为多攻击和未知攻击的鲁棒性提供新的有希望的解决方案。

Oct, 2023

文本分类任务中传统的外部分布检测方法的基准测试

本文着重介绍了现有方法在处理 NLP 中 OOD 检测时的局限性，对八种常见的 OOD 检测方法进行了评估并分析了其存在的问题，发现现有方法对于各类型分布偏移的检测敏感性不够，在领域内文本中存在令人困惑的测试场景，而需要开发更有效的 OOD 检测方法，本文为未来的研究提供了一个良好的、定义明确的基础。

Jul, 2023

非参数异常合成

本文提出了一种基于非参数方法的异常检测框架，可在不依赖于高斯分布假设的情况下生成人工训练数据，从而有效地学习鲁棒的模型决策边界，并在超出分布的数据检测上表现出优越的性能。

Mar, 2023

基于深度度量学习的合成异常暴露的离群分布检测

该研究提出了一种将深度度量学习和扩散模型结合起来的新方法，用于通过合成数据对于分布外（OOD）进行检测，并证明基于度量学习的损失函数优于 softmax，在生成的 OOD 数据上的训练使得模型在传统 OOD 检测指标上表现优于强基线模型。

May, 2024

VOS：通过虚拟异常点合成学习未知领域

VOS 是一种新的框架，用于通过自适应合成虚拟离群值，在训练期间能够有意义地规范模型的决策边界，包括在特征空间中从类条件分布进行虚拟离群值取样，同时引入一种新的未知感知训练目标，与 ID 数据和合成离群数据之间的不确定性空间进行反向塑形，VOS 与物体检测和图像分类模型均能实现竞争性表现，在物体检测器上将 FPR95 降低了最高达 9.36％。

Feb, 2022

ImageNet-OOD: 解析现代异常检测算法

通过广泛的实验，我们展示了当前的 ODD 检测器对于协变量转移比语义转移更为敏感，并且最新的 ODD 检测算法对于语义转移的检测效果微乎其微。我们的数据集和分析为指导未来的 ODD 检测器设计提供了重要见解。

Oct, 2023

一个统一的方法用于主动学习和外域检测

SISOM is a unified solution that combines the strengths of active learning and out-of-distribution detection, achieving top performance in benchmark evaluations.

May, 2024