StatWhy：统计假设检验程序的形式化验证工具

May, 2024

StatWhy：统计假设检验程序的形式化验证工具

StatWhy: Formal Verification Tool for Statistical Hypothesis Testing Programs

Yusuke Kawamoto, Kentaro Kobayashi, Kohei Suenaga

TL;DR应用形式化规范方法和自动验证技术，开发了一种检验统计程序正确性的新方法，可以避免在科学研究中广泛存在的统计方法滥用和误解问题。

Abstract

statistical methods have been widely misused and misinterpreted in various scientific fields, raising significant concerns about the integrity of scientific research. To develop techniques to mitigate this proble

statistical methods misinterpretation scientific research formal specification hypothesis testing programs

发现论文，激发创造

DoWhy: 一种用于因果推断的端到端库

DoWhy 是一个开源的 Python 库，用因果图的形式来指定和测试因果关系的假设，支持四个因果分析步骤，并实现了多个对模型稳健性的检验方法，例如安慰剂测试 (placebo tests)、自助法检验 (bootstrap tests) 以及无法观测混杂变量 (unobserved confounding) 的检验。

Nov, 2020

用于统计假设测试程序的声音且相对完全的信念 Hoare 逻辑

提出一种新的方法来正式描述统计推断的要求并检查程序是否正确使用了统计方法。具体来说，定义了信仰 Hoare 逻辑（BHL）以形式化并推理通过假设检验获取的统计信念。证明了 BHL 对于应用在假设检验方面的问题很有用，对于合理的统计推断解释中重要的先验信念进行了澄清。

Aug, 2022

通过贝叶斯分析比较多个分类器的教程：是时候改变了

该研究证明了经典的 “空假设显著性检验” 在机器学习领域的不足，提出应该转向贝叶斯统计的方法来更好地分析机器学习结果。

Jun, 2016

DoWhy：处理因果假设表述及验证的挑战

DoWhy 是一个基于因果图的框架，旨在明确表述因果假设并提供多个验证测试来检查这些假设的子集，以便更好地估计因果效应估计值。

Aug, 2021

统计与可解释性：一个有成效的联盟

本研究提出使用标准统计工具来解决说明性文献中普遍存在的问题，通过利用统计估计器来定义解释，从而实现理论保证和评估指标的制定，以定量评估解释的质量。此方法避免了目前文献中普遍存在的主观人为评估。此外，我们认为不确定性量化对于提供稳健可信的解释至关重要，并且可以通过诸如自助法等经典统计方法在这个框架中实现。然而，需要注意的是，虽然统计学提供了宝贵的贡献，但它并不能解决所有问题。未来的研究方向可以聚焦于一些开放性问题，如为解释定义目的或建立适用于对策或对抗场景的统计框架。

Apr, 2024

量化程序偏见

文章提出了一种新颖的概率程序分析技术，并将其应用于量化决策程序中的偏差，开发了第一个量化程序偏差的验证工具 FairSquare，并在一系列决策程序上进行了评估。

Feb, 2017

使用形式化数学开发无缺陷的机器学习系统

通过可交互的证明助手，开发者能够证明机器学习系统的正确性，这种方法暴露了所有的实现错误，并通过 Certigrad 实现了优化的随机计算图，并生成了一个机器可验证的证明，证明了系统采样的梯度是数学梯度的无偏估计方法。

Jun, 2017

StocHy: 随机过程的自动验证和合成

StocHy 是一个用于离散时间随机混合系统 (SHS) 的定量分析的软件工具，可以模拟 SHS 的演变并自动构建抽象，该抽象可用于形式验证或控制合成。

Jan, 2019

STL: 对系统验证而言意外棘手的逻辑

人类实验发现形式化方法的规范并不是本质上能够被人类理解的，而且验收正确性受到多种因素的影响，提出了在规范展示和验收培训中应当考虑人体工程学改进的建议。

May, 2023

可信的正式自然语言规范

该论文表明，通过使用现有的证明助理，可以以与建立证明助理自身的信任和可审计性原则相一致的方式，构建对自然语言表达的规范的支持。我们在 Lean 证明助理内实现了一种方式，以可扩展的正式英语子集提供规范，并自动将其翻译成正式的命题。我们的方法是可扩展的（对语法结构没有永久限制），模块化的（允许在库中分发有关新词的信息），并且生成解释了每个词的解释方式以及如何使用句子结构来计算含义的证明证书。我们将原型应用于从一本流行教材中翻译各种正式规范的英文描述；在仅需进行小幅修改的情况下，借助一个适度的词汇表，所有规范都能被正确翻译。

Oct, 2023