- 自然语言处理的保形预测:一项概述调查
快速增长的大型语言模型和自然语言处理(NLP)应用对不确定性量化提出了关键需求,以减轻幻象等风险并提高关键应用中的决策可靠性。条件预测正在成为一个理论上健全且实用的框架,结合了灵活性和强有力的统计保证。它的模型无关性和无分布性质使其特别有希 - ICLR频谱转换核回归
无标签数据是现代机器学习的关键组成部分,本论文回顾了传统的谱转换核回归(STKR)算法,并提供了一类新的通用且可扩展的 STKR 估计器,能够利用无标签数据。通过谱变换,STKR 利用了无标签数据提供的额外信息来学习数据分布,并在已知多项式 - 通过条件排列统计有效变量重要性评估
我们提出了条件置换重要性(CPI)的系统方法,通过为复杂机器学习应用中的变量重要性评估提供精确的类型 - I 错误控制,并在大规模数据集和深度神经网络中的实证研究中表现出最高准确性。
- 使用离散优化的稀疏高斯图模型:计算和统计视角
我们提出了一种稀疏图的学习方法,应用于一个无向高斯图模型的问题,并通过凸混合整数规划框架得到了新的估计器,该估计器在稀疏性精度矩阵的估计与变量选择方面有着优越的性能。
- 共形语言建模
该研究介绍了一种新的适用于生成式语言模型的公差预测方法,它不仅能够精确地预测结果,还具有统计学的可靠性。研究者们通过校准样本输出和严格限制机制来实现这种方法。
- 上下文多臂老虎机的离线策略优化:高效的谨慎性
本文介绍了一种称为 `pessimistic policy optimization` 的算法,用于处理 contextual bandits 中的策略优化问题,并提供了对于这种方法的最佳统计估计。该算法运用监督学习的方法,在离线交互日志的 - 公平性审计的统计推断
通过多重假设检验,在统计保证的前提下,使用自助法在子人群的集合中同时限制性能差异,从而识别受模型性能不足影响的子人群并验证模型在某些子人群中的适用性。此外,该方法还兼容超丰富甚至无限的子人群集合,并支持评估在某些分布变化下的性能。
- 稀疏深度学习的统计保证
发展用于稀疏深度学习的统计保证来进一步增加我们对神经网络潜力和局限性的理解,这一理论考虑了不同类型的稀疏性,如连通性,结点性等,并覆盖了先前理论忽略的重要方面,如多重输出和正则化。
- 基于图像的无分布不确定性回归及在成像中的应用
通过引入不确定性量化技术,提供了一种给图像到图像回归问题提供统计保障的方法,使得能够对每个像素进行不确定性区间估计,并且保证这个估计在给定的置信度下包含了真实值。
- 学习再测试:校准预测算法以实现风险控制
介绍了一种框架,用于通过多重假设检验重新定义风险控制问题来校准机器学习模型,从而保证其预测结果符合明确的统计保证。
- 噪声标签的深度 k-NN
本文通过实证研究表明,在初步模型的 logit 层上实施简单的 k 近邻过滤方法能够去除错误标记的训练数据,比许多最近提出的方法产生更准确的模型,并提供了新的统计保证。
- 从含噪数据中恢复低秩张量的非凸方法
我们提出了一个两阶段的非凸算法,用于从高度不完整和随机损坏的观测值中重建低秩张量,并在几乎线性时间内恢复所有单个张量因子,同时享受接近最优的统计保证,我们还讨论了如何扩展我们的方法以适应非对称张量。
- 噪声矩阵填充:通过非凸优化理解对凸松弛的统计保证
本文研究了针对大规模低秩矩阵的部分和带噪声数据中的矩阵补全问题,采用凸松弛和 Burer-Monteiro 方法,成功地将凸松弛的实践与非凸方法的统计保证相结合,取得了近乎最优的估计误差。
- ICML核岭回归的随机傅里叶特征:逼近界限和统计保证
本文通过研究谱矩阵近似的角度,给出了随机傅里叶特征的数量界和核岭回归的统计保障,而从核的杠杆函数中改进傅里叶空间的分布采样可获得提高的性能与更优的采样方案。
- AAAI可证明准确的双稀疏编码
本文介绍了一种简单的算法来进行双稀疏编码,并证明了其在样本复杂度和运行时间上具有优势,同时支持了多项数据模拟实验来验证该算法的实用性。
- NIPS正则化 EM 算法:统一框架与统计保证
这篇研究论文通过使用正则化技术,解决了高维数据应用中 EM 算法在 M 步时无法定义的问题,并在此基础上,具有统计保证的处理了高维混合回归、缺失变量回归等问题。