有限记忆下的统计推断:一项调查
本文探讨了机器学习中的信息约束,包括内存、通信、数据部分读取等约束对算法性能的影响,并得出针对不同情形,在特定限制下,算法表现将不如无限制情形的结论。
Nov, 2013
在标准访问模型和条件访问模型中,当测试算法的内存受到限制时,我们研究分布测试。我们提供了一个样本复杂性和空间复杂性之间的权衡,用于在根据条件访问预言进行抽样时测试身份。我们还展示了我们可以有效地学习具有几乎最优的样本存储限制的单调分布的简洁表示。此外,我们还展示了单调分布的算法可以扩展到更大的可分解分布类。
Sep, 2023
该研究论文探讨了在面对包含海量数据集和需要超级计算机执行的模拟时,如何利用数据与模型之间的固有统计学特性来提高学习和推理的效率,并提出了相应的基于随机梯度的算法来检测概率、提高 MCMC 的更新效率和决定参数更新的接受或拒绝,同时探讨了在大数据和大模拟时代中 Bayesian 方法所面临的一些计算方面的挑战。
Feb, 2014
对于限定的数据量,我们研究了算法评估与比较的理论极限,发现在黑盒测试下无法客观评价算法性能,除非可用数据点数远大于样本量。在评估特定训练模型性能方面则较为简单,只需要保留一组验证数据即可。同样地,我们探讨了算法稳定性假设是否足以解决问题,结果发现只有在高稳定性范围内,模型才能基本无差别。最后,我们还针对多个算法的比较问题也得出了类似的理论困难。
Feb, 2024
关于如何在自适应数据分析中保证统计推断的有效性的研究,使用隐私保护技术协调估计值,并在估计指数数量的期望时取得了指数级的改进,适用于多重假设检验和虚假发现率控制。
Nov, 2014
通过建立合适的性能度量标准的基准,我们评估了一些最新的利用神经网络和经典近似贝叶斯计算方法的方法,发现性能度量的选择关键,即使是最先进的算法也有很大的改进空间,顺序估计提高了样本效率,神经网络方法通常表现更好,但没有均匀的最佳算法。
Jan, 2021
这篇论文研究数据分析中的线性回归和数据素描技术,探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断,发现虽然算法上的优化子集无法适用于预测和推断,但通过统计学方法可以提供建议的子集大小,并通过实验表明,使用不同的子集来估计结果可以将预测结果效率与使用全样本的方法几乎相同。
Jul, 2019
提出了第一个量化自适应推理算法效率和性能提升机会规模的理论框架,通过经验证据展示了在计算机视觉和自然语言处理任务中可以实现 10-100 倍的效率提升而不会造成任何性能损失,同时提供了关于通过自适应推理状态空间的最佳选择和设计来提高可实现的效率提升的见解。
Feb, 2024