通过复用经验证的电路增强对语言模型的信任

Feb, 2024

通过复用经验证的电路增强对语言模型的信任

Increasing Trust in Language Models through the Reuse of Verified Circuits

Philip Quirke, Clement Neo, Fazl Barez

TL;DR使用数学和逻辑规范的框架构建的变压器模型经过全面验证，证明了通过插入已验证的任务模块可以提高使用语言模型的可验证性和可信度，减少复杂复合模型的验证工作量，并为语言模型的安全性迈出重要一步。

Abstract

language models (LMs) are increasingly used for a wide range of prediction tasks, but their training can often neglect rare edge cases, reducing their reliability. Here, we define a stringent standard of trustworthiness

language models trustworthiness verification integer addition model reuse

发现论文，激发创造

基于验证和验证的视角对大型语言模型的安全性和可信度进行调查

本文介绍了大语言模型（LLMs）在人工智能领域的应用。主要探讨了 LLMs 的安全性和可靠性问题，并对经典软件和深度学习模型如卷积神经网络的验证和验证技术进行了综述和扩展，以提供对 LLMs 及其应用程序的安全性和可靠性的严格分析。

May, 2023

大型语言模型是具有自我验证功能的推理器

提出了一种名为自验证的方法，该方法使用推理链的结论作为条件建立新的样本，并要求大型语言模型重新预测原始条件，从而降低了多任务精度误差。经过大量实验验证，此方法可以使大型语言模型避免出现不正确的推理链干扰，并实现具有竞争力的推理性能，可用于算术和逻辑推理数据集的有限次学习。

Dec, 2022

电路变压器：通过预测下一个门实现端到端电路设计

通过预测下一个逻辑门，使用基于 Transformer 的神经模型对电子设计任务进行了改进，取得了显著的性能提升，并保持了严格的等效性约束。

Mar, 2024

关于自我纠正和语言模型信任的交叉问题

通过探索大型语言模型的自我纠正能力，研究发现自我纠正能够提升大型语言模型的可信度和真实性，但这种改进程度会根据可信度的具体方面和任务的性质而有所不同，并发现大型语言模型在自我纠正过程中存在自我怀疑的实例，带来了一系列需要解决的新挑战。

Nov, 2023

大型语言模型中平衡创造力和现实之间的权衡的数学抽象

本文着重探讨了大型语言模型（LLMs）及其在生成创造性写作和问答系统等方面的应用，并提供了一种基于损失的数学抽象模型来平衡模型的创造性和真实性。

Jun, 2023

TrustLLM：大型语言模型的可信性

介绍了 TrustLLM，这是一个关于 LLM（大型语言模型）信任度的综合研究，包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度，以及对开放挑战和未来方向的讨论。

Jan, 2024

VerityMath: 自校验实现的数学推理与单位一致性的推动

通过定义单位并确保在数学运算过程中单位的一致性，我们提出了一种系统的方法来解决大规模语言模型在解决涉及跨多种类型或单位的数量的数学问题时面临的挑战。我们使用 Unit Consistency Programs（UCPs）为每个问题开发了一个带有单位规范和单位验证程序的数据集，并借助 UCPs 对 Code Llama（7B）模型进行了微调，从而产生了 VerityMath，并展示了我们的初步研究结果。

Nov, 2023

不要相信：验证 - 用自动形式化证明 LLM 定量推理的基础

通过自动生成验证的形式化 Isabelle 代码，我们的方法能够自动排除具有内在一致性问题或与形式化问题陈述不一致的解，并在多个数据集和模型大小上比以前最佳方法 — 普通多数投票 — 提高了 12% 以上的准确性。

Mar, 2024

视觉中可信大规模模型：调查

大型模型的快速进展在深度学习的各个领域中带来了显著的成绩，但其强大性能而不可信赖的行为成为学术界和工业界面临的挑战。本综述总结了在视觉领域中妨碍大型模型信赖使用的四个相关问题，包括人类误用、易受攻击、内在问题和解释性，通过突出每个主题中的相应挑战、对策和讨论，希望读者能更好地理解该领域，促进大型模型与人类期望的一致性，使可信赖的大型模型成为人类社会的福祉而非灾难。

Nov, 2023

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与 GPT-4 基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024