证明自身正确性的模型

May, 2024

Models That Prove Their Own Correctness

Noga Amit, Shafi Goldwasser, Orr Paradise, Guy Rothblum

TL;DR通过训练自证明模型，该论文提出了一种基于理论的方法来解决如何在特定输入上验证学习模型的正确性的问题。通过交互证明以高概率证明模型的正确输出并成功向验证算法证明其正确性，并通过实验验证了其在计算最大公约数方面的效果。

Abstract

How can we trust the correctness of a learned model on a particular input of interest? Model accuracy is typically measured \emph{on avera

trust correctness learned model self-proving models verification algorithm

发现论文，激发创造

学习证明：定义与实践

此研究的目的是实现机器学习中证明训练过程的机制 ——proof-of-learning。作者观察到随机梯度下降算法具有积累秘密信息的性质，并构建了一种自然的证明机制来证明一个实体已经正确地完成了模型参数优化过程，进而保护模型的知识产权。同时，该证明机制也保持了训练过程的可用性，可以在多方争议模型所有权的情况下使用。实验证明，该机制在硬件和软件环境的变化下仍能保持鲁棒性。

Mar, 2021

大型语言模型是具有自我验证功能的推理器

提出了一种名为自验证的方法，该方法使用推理链的结论作为条件建立新的样本，并要求大型语言模型重新预测原始条件，从而降低了多任务精度误差。经过大量实验验证，此方法可以使大型语言模型避免出现不正确的推理链干扰，并实现具有竞争力的推理性能，可用于算术和逻辑推理数据集的有限次学习。

Dec, 2022

大型语言模型可轻松自我修正

大型语言模型 (LLMs) 的内在自我纠正能力受到了研究，然而，通过掩盖问题中的关键条件，添加当前答案构建验证问题，并预测条件以验证答案的简单但有效的验证方法，提出了逐步识别和纠正可能的错误响应的迭代验证 - 纠正框架，命名为 ProCo。与自我纠正相比，ProCo 在三种推理任务中的性能明显提高。

May, 2024

零知识证明与机器学习相遇：一个调研

人工智能技术进展迅速，机器学习模型的使用逐渐成为我们日常生活的一部分。这篇论文提供了一份对基于零知识证明的可验证机器学习（ZKP-VML）技术的综合调查报告，分析了不同机器学习场景中可能存在的可验证性问题，并通过详细分析和分类现有工作的技术方法，讨论了 ZKP-VML 领域面临的关键挑战和未来方向。

Oct, 2023

使用形式化数学开发无缺陷的机器学习系统

通过可交互的证明助手，开发者能够证明机器学习系统的正确性，这种方法暴露了所有的实现错误，并通过 Certigrad 实现了优化的随机计算图，并生成了一个机器可验证的证明，证明了系统采样的梯度是数学梯度的无偏估计方法。

Jun, 2017

深度概率模型的验证

该文章提出了一种验证深度概率模型的新框架，在模型输出过程中采样潜在变量并考虑其所需的条件输入，以高概率满足线性约束，并能够有效地验证功能空间中感兴趣的属性（单调性、凸性）

Dec, 2018

利用神经网络生成正确性证明

本文提出了一个使用机器学习技术的证明搜索系统 Proverbot9001，它能够自动化之前需要手动完成的证明，有效地产生了 27.5% 的证明陈述，在 Coq 中产生了 4 倍的提高。

Jul, 2019

信任，但请验证：使用自监督探究来提高可信度

本文介绍了一种新的自我监督探测方法，该方法能够检查和减轻训练模型的过度置信问题，从而提高其可信度。此方法在信任相关任务 (误分类检测、校准和超出分布检测) 中得到了广泛验证和应用。

Feb, 2023

验证神经模型训练数据的工具

为了评估神经模型的能力和风险，我们引入了一种名为 “Proof-of-Training-Data” 的概念，该概念包括了一些协议，使模型训练者能够向验证者证明所产生的一组模型权重的训练数据。我们研究了与大部分当前的大型模型训练程序兼容的 Proof-of-Training-Data 的有效验证策略。

Jul, 2023

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与 GPT-4 基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024