快速经验场景

Jul, 2023

Fast Empirical Scenarios

Michael Multerer, Paul Schneider, Rohan Sen

TL;DR从大型高维面板数据中提取代表性情景，使用协方差矩阵进行数据建模，为投资优化。

Abstract

We seek to extract a small number of representative scenarios from large and high-dimensional panel data that are consistent with sample moments. Among two novel algorithms, the first identifies scenarios that ha

representative scenarios panel data covariance matrices sample moment information portfolio optimization

发现论文，激发创造

算法协同作用的统计视角

本文在大数据集上提出了算法杠杆效应的采样方法，通过样本采集分布来提高算法的计算效率，并在固定预测因子的线性回归模型中，提出了一种简单有效的框架来评估算法杠杆的统计性能。其结果表明核心的采样方法的统计性能既不会因为采用杠杆采样而主导也不会因采用均匀采样而优于杠杆采样，但其在最坏分析情况下，杠杆采样与均匀采样相比都能提供更好的结果。在理论性能基础上，本文提出并分析了两种新的杠杆算法，并在合成和真实数据集上进行了详细的实证评估。

Jun, 2013

有关算法子采样的计量经济学视角

这篇论文研究数据分析中的线性回归和数据素描技术，探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断，发现虽然算法上的优化子集无法适用于预测和推断，但通过统计学方法可以提供建议的子集大小，并通过实验表明，使用不同的子集来估计结果可以将预测结果效率与使用全样本的方法几乎相同。

Jul, 2019

基于 “众多样本中的最佳” 采样目标的序列精确而多样化的采样

针对自动代理在预测未来事件和环境状态时面临的多模态分布挑战，提出了一种基于高斯潜变量模型的 “Best of Many” 样本目标方法，可以更准确地预测未来数据序列，模型在交通场景和天气数据等任务上实验效果表现优于先前研究成果。

Jun, 2018

关于大数据的马尔科夫链蒙特卡罗方法

本文综述了最近在机器学习和计算统计学领域提出的两类解决元数据分析中基于独立假设的马尔科夫链蒙特卡罗方法的方法：分而治之的方法和基于子采样的算法，并提出了一种新颖的基于子采样的方法，并在某些统计模型的有利情况下，每次迭代可以要求少于 $O (n)$ 数量级的数据点似然性评估，然而，在目标后验分布的 Bernstein-von Mises 逼近存在缺陷的情况下，我们目前只能提出能在基于子采样的方法中表现良好的方法，而在其他情况下这仍然是一个未解决的挑战。

May, 2015

随机特征矩压缩统计学习

本文提出了一种基于压缩统计学习的通用框架，通过将训练集压缩成一个捕捉到相关学习任务信息的低维矢量，进而通过非线性最小二乘问题计算出风险的近似最小值，并探讨了控制此过程的广义误差的足够描绘尺寸。该框架在压缩 PCA，压缩聚类和已知固定方差的压缩高斯混合建模问题上得到了验证。

Jun, 2017

手绘子空间聚类

本文介绍了一种随机化方案，名为 Sketch-SC，它是一种针对高维大容量数据的 SC 的加速计算方法，通过使用随机投影来压缩数据矩阵以实现快速而准确的大规模 SC。在实际数据上的性能分析及广泛的数值测试证实了 Sketch-SC 的潜力和与最先进的可扩展的 SC 方法相比的竞争性能。

Jul, 2017

基于平方和的异常值稳健矩估计

在存在对抗离群值的情况下，我们开发了有效的算法来估计未知分布的低阶矩。这些算法的保证在许多情况下显著优于 Diakonikolas 等人、Lai 等人和 Charikar 等人的最佳先前算法，同时我们还展示了这些算法的保证与我们考虑的分布类别的信息论下界相匹配，这些改进的保证使我们能够在存在离群值的情况下提供改进的独立成分分析和学习混合高斯的算法，我们的算法基于对下面概念简单优化问题的标准平方和松弛：在所有矩与未知分布相同的分布中，找到与对抗性污染样本的经验分布在统计距离上最接近的分布。

Nov, 2017

算法高维鲁棒统计的最新进展

本文章讨论了高维数据的鲁棒性估计问题以及最近在该领域中提出的算法技术，尤其关注于鲁棒均值估计。

Nov, 2019

加权采样的联合模型选择和超参数调优

本研究探究了针对大型超参数空间的机器学习算法选择和超参数调优问题，并提出了一种新的抽样分布方法，以便与现有的机器学习方法进行比较和评估。我们发现，采用该抽样方法在所有情况下均可提高性能。

Sep, 2019

稀疏主成分估计中的统计和计算折衷

通过研究计算复杂性理论，发现在满足一定限制的协方差集中条件下存在有效的样本大小范围，在此范围内无法有随机多项式时间算法达到最佳极小风险率；对著名的半定松弛估计方法的理论性能进行研究，揭示了统计效率和计算效率之间微妙的相互作用，此方法为多维数据稀疏主成分分析提供了一种解决方案。

Aug, 2014