- NIPSAssertionBench: 用于评估大语言模型的断言生成基准
使用大型语言模型(LLMs)生成断言的有效性和适用性的定量评估。
- 迈向更公平的人脸识别数据集
利用生成的训练数据集中的人口属性平衡机制,提出了一种全面的评估方法,旨在促进更公平、透明的人脸识别和验证,并发现在减少人口属性不公平的同时,性能差距仍然存在。
- 深度强化学习的验证引导屏蔽
通过整合形式验证和概率验证工具,将输入域划分为安全和不安全区域,通过聚类和符号表示过程对不安全区域进行压缩,从而在(潜在的)不安全区域高效地临时激活防护,显著减少运行时开销并保持形式安全保证。
- CheckEmbed:对开放式任务的 LLM 解决方案进行有效验证
提出了一个简单而有力的证实方法,通过比较基于大型语言模型的答案级嵌入来验证模型的答案,以实现诸如汇总、摘要和知识提取等复杂开放式任务的准确性和可扩展性,并展示了在术语提取和文档摘要等实际任务中,与现有方案相比,精度、性价比和运行性能都有显著 - 基于学习的具有神经网络策略的随机动力系统的验证
我们考虑在随机动力系统中验证神经网络策略以达到避碰控制任务,并使用一个证明该策略满足任务的神经网络作为证书的验证过程。我们对验证神经网络是 RASM 的算法方法进行了显著加速,并通过通过加权范数计算神经网络的 Lipschitz 常数的新颖 - 判定 ReLU 神经网络的单射性和满射性的复杂度
对于具有 ReLU 激活的神经网络的验证,本研究表明了判断单层 ReLU 层的单射性是 coNP 完备问题,但提出了一个基于参数化算法,使得问题相对于输入维度具有固定参数可跟踪性,并且表征了具有一维输出的两层 ReLU 网络的满射性问题与基 - 超属性验证的非确定性规划
验证超性质的自动化的算法,通过构建一个非确定性多机器人规划实例,确保一个规划存在则满足验证问题。
- 深度神经网络验证的认证证明检查器
深度神经网络验证技术的验证进展为 DNN 验证器的广泛应用开辟了道路,提出了在 Marabou DNN 验证器的基础上以 Imandra 为实现语言进行形式保证的 Marabou 证明检查算法的替代实现。
- PropertyGPT:通过递归加智能规则生成从而实现智能合约的 LLM 驱动形式验证
利用大型语言模型,本研究提出了 PropertyGPT 系统,该系统可以通过生成可编译、适当且可验证的自定义属性来检测代码缺陷和安全漏洞,实验结果显示其能够生成高质量的属性,相较于真实情况,其召回率达到 80%。
- 基于形式化和基于仿真的方法进行高效 RADAR SoC 验证
通过实例研究基于射频探测和定位的复杂片上系统,本文提出了一种综合应用形式化和基于仿真的方法进行验证的方法,以满足多方面的需求,并利用机器学习方法提高验证效率。
- AuditGPT:使用 ChatGPT 对智能合约进行审计
基于大型语言模型,本文提出了一种名为 AuditGPT 的工具,用于自动全面地验证智能合约是否符合 ERC 规则,通过对四个流行 ERC 中的 222 个规则进行实证研究,设计了适用于每种 ERC 规则类型的优化提示,评估结果显示 Audi - 利用插值模型和误差界提高可验证的科学机器学习
验证和验证现代科学机器学习工作流程的有效技术是很具挑战性的。本研究通过展示(1)多个标准插值技术具有信息丰富的误差界限,可以进行高效计算或估计;(2)不同插值器之间的比较性能有助于验证目标;(3)在深度学习技术生成的潜在空间上部署插值方法, - 随机强化学习策略的概率模型检验
我们介绍了一种验证随机强化学习政策的方法,该方法与任何强化学习算法兼容,只要算法及其对应的环境共同遵守马尔科夫属性。我们的方法将模型检验技术与强化学习相结合,利用马尔科夫决策过程、训练好的强化学习策略和概率计算树逻辑(PCTL)公式构建一个 - 基于扩展的抽象论证中首选项计算与验证方法
我们提出了一种基于扩展的方法来计算和验证抽象论证系统中的偏好。我们的研究考虑了标准推理问题的逆,即在给定一个抽象论证框架和一组被证明的论证时,计算关于论证的所有可能偏好的方法和算法。我们证明了算法的正当性、完备性和终止性。该研究表明,偏好是 - NUMTEMP:一个用于验证具有统计和时间表达的声明的实际基准
自动事实核查在数字时代应对不断增长的误信息方面引起了极大的关注。我们在这项工作中发布了 Numtemp,这是一个多领域的数据集,专门针对数字性声明,包括时间、统计和各种方面的细粒度元数据和证据集合,不会泄漏任何信息。与现有的主要关注合成声明 - 神经网络动力系统模型的转化系统抽象框架
本文提出了一个转换系统抽象框架,旨在增强神经网络动态系统模型的可解释性,应用于复杂的动态系统如人类行为学习和验证。
- 通过差分动态逻辑证明安全的神经网络控制器
通过使用差分动态逻辑(dL)和神经网络验证相结合的方法,我们引入了 VerSAILLE(通过逻辑链接的包络来确保安全的人工智能)来解决神经网络控制系统(NNCS)的安全性验证问题,同时提出了 Mosaic 来处理多项式实数算术性质在分段线性 - 神经网络逼近微分方程的正确性验证
通过定义神经网络的导数为有限差分逼近,并提出求解偏微分方程残差边界问题和初始值问题误差传播的方法,我们首次解决了在没有先验知识的情况下界定神经网络函数的问题,并构建了一个并行分支算法,该算法结合了不完全的 CROWN 求解器和梯度攻击来解决 - 任务成功并不足够:调查使用视频 - 语言模型作为行为批评家以捕捉不良代理行为
在具体 AI 领域,利用大规模生成模型结合外部验证者,根据验证反馈逐步迭代推导最终解决方案,以验证是否达到说明中的目标条件,以便无缝整合到日常生活中,超越任务成功,和大范围的约束和个人偏好,为此构建一套测试基准,通过全面评估视觉与语言模型在 - 通过复用经验证的电路增强对语言模型的信任
使用数学和逻辑规范的框架构建的变压器模型经过全面验证,证明了通过插入已验证的任务模块可以提高使用语言模型的可验证性和可信度,减少复杂复合模型的验证工作量,并为语言模型的安全性迈出重要一步。