- 贝叶斯干预优化用于因果发现
我们提出了一种基于贝叶斯优化的方法,通过活动干预来最大化获取决定性和正确证据的概率,从而有效地发现因果关系,并增强理论进展的实际应用。
- 大型语言模型是良好的统计学家吗?
LLMs 在处理复杂统计任务方面存在显著改进空间,引入 StatQA 作为新的基准测试以评估 LLMs 在特定统计任务和应用评估能力方面的表现,并突显 LLMs 和人类在错误类型上的差异,表明结合 LLMs 和人类专业知识有助于相互补充优势 - 带有错误分类惩罚的假设检验的子模块信息选择
选择最佳的信息源子集,以便在有限假设集合上,基于有限样本观察结果,从事实世界的真实状态中识别出正确的假设。使用误分类惩罚框架来描述学习性能,并研究了两种情况下的子集选择问题:(一)选择最小成本的信息集合以保证在将真实假设错误分类的最大惩罚保 - 大规模属性图假设检验的基于采样的框架
这篇论文介绍了基于假设的图采样和假设测试框架,通过路径假设感知采样方法 PHASE 提高准确性和时间效率。实验证明,该框架能够有效利用常见的图采样方法进行假设测试,并且在准确性和时间效率方面具有优势。
- 通过数据水印证明 LLM 预先训练数据中的成员资格
利用数据水印将版权持有者的作品用于 LLM 预训练进行检测,可作为一个重要的问题。我们研究了使用数据水印进行便于黑箱模型访问的有原则的检测的方法。通过应用随机抽样的数据水印,我们将检测问题构建为假设检验,从而提供了关于虚警率的保证。我们分析 - 似然自由推断中的噪声参数分类和广义标签转移
我们提出了一种新的方法用于稳健的不确定性量化,将分类问题视为在干扰参数下的假设检验问题,通过估计分类器在整个干扰参数空间上的接收器操作特性(ROC),我们能够设计在广义标签偏移下不变的截断点,从而有效赋予预训练分类器领域适应能力,并返回有效 - 相关随机向量的检测
研究标准正态随机向量之间是否存在相关性的假设检验问题,提出了信息理论下界的评估方法,同时探索了多维情况下观察两个数据库 / 矩阵之间的部分相关性。
- 有限记忆下的统计推断:一项调查
本文综述了在统计推断中存在的内存限制对性能的影响,包括假设检验、参数估计和分布特性检验 / 估计等几个典型问题,总结了该领域内的主要研究成果,并提取了一些算法构建的基本模块和推导下限的有用技术。
- 使用局部极大似然估计的条件类别噪声的假设检验
在监督学习中,评估标签质量成为一个尚未解决的研究问题。本文提出了一种替代路径,使用非参数逻辑回归模型构建基于污染标签噪声的假设检验,相比传统的参数方法具有更强的适应性和较少的模型设定问题。
- 走向最佳的统计水印技术
通过将统计水印技术作为一种假设检验问题进行研究,我们建立了一个通用框架,涵盖了所有以前的统计水印方法,并通过在实际中使用伪随机生成器将输出符号和拒绝域进行耦合,实现了类型 I 错误和类型 II 错误之间的非平凡权衡。我们描述了在这种情境中的 - 测试未标记数据库的依赖性
该研究探讨了如何决定两个随机数据库之间是否存在统计依赖关系,并通过零假设和备择假设构建了一个假设检验问题,其中在零假设下,这两个数据库是统计独立的,而在备择假设下,存在一个未知的行排列使得两个数据库具有已知的联合分布但与零假设的边际分布相同 - 差异私有置换检验:在核方法中的应用
提出了一种差分隐私保护的假设检验方法,扩展了经典的非隐私保护排列检验到隐私保护场景,从而实现有限样本有效性和差分隐私的同时保证。通过引入基于核的测试统计量,提出了两种不同差分隐私保护的核测试方法(dpMMD 和 dpHSIC),具有简单易施 - 关于 Pauli 通道学习的几个辅助量子比特的无用性和有用性
在本文中,我们重新思考了用于表征量子设备中噪声结构的典型任务之一,即估计 n 量子比特 Pauli 噪声通道的特征值。我们改进了之前的工作,给出了更好的下界,并且证明了具有限定量子内存的算法在估计每个特征值的误差为 ε 时必须进行 Ω(2^ - ChainForge:一个用于提示工程和 LLM 假设测试的可视化工具包
ChainForge 是一个开源的可视化工具包,用于大型语言模型的提示工程和按需假设测试,它提供了一个图形界面,用于跨模型和提示变体之间的响应比较。
- 广义线性模型中未测混淆因素的同时推断
基因组研究中的假设检验问题,针对多元广义线性模型中的混淆效应,提出了一种统一的估计和推断框架,能够控制假阳性率,并且比替代方法更强大。
- 参数规划选择推理中的有界 P 值
我们提出了一种方法来减少计算成本,同时保证所需的精度,通过计算 p 值的上下界,并提出了三种有效提升这些界限的搜索策略。我们在线性模型的特征选择和深度神经网络中的注意区域识别的假设检验问题中展示了该方法的有效性。
- 协作科学的激励理论贝叶斯推演
当研究中存在拥有私人先验的代理者和希望基于参数值做出决策的主要决策者时,研究探讨了假设检验,以维护科学严谨性,并使用代理者的战略行为来进行统计推断。
- 联邦疫情监测
通过联邦方法开发假设检验框架,结合 $p$- 值的组合方法,研究了在大流行监测中的可行性,为整合可用数据源提供了宝贵的洞见。
- 测量再识别风险
本文提出了一个新的理论框架来测量用户表示中的再识别风险,并应用该框架来模拟 Chrome 的 Topics API,以便用于基于兴趣的广告。
- 假设检验与机器学习:使用 Cohen 的 f2 解释深度人工神经网络中的变量效应
本文提出了一种基于现有的可解释人工智能(XAI)方法的、适用于机器学习的无模型假设检验框架,其中利用 Fisher 的变量置换算法计算等效于 OLS 回归模型的 Cohen's f2 的效应量度量,并将 Mann-Kendall 检验和 T