- Python 模糊测试可信机器学习框架
确保机器学习框架的安全性和可靠性对于构建可信的基于人工智能的系统至关重要。我们提出了一个 Python 项目的动态分析流水线,使用 Sydr-Fuzz 工具集来实现模糊测试、语料库精简、崩溃分析和覆盖率收集,在 GitLab CI 中实现流 - LIGHTCODE: 反馈信道的光分析和神经码
通过设计具有可靠性和高效性的编码方案,本文研究了在具有反馈的信道中的通信理论挑战。我们提出了分析编码方案 POWERBLAST 和轻量级神经编码方案 LIGHTCODE,用于改进通信系统的可靠性,并在学习的代码中建立了 LIGHTCODE - HaluEval-Wild: 评估野外语言模型的幻觉
为了评估大规模语言模型 (LLMs) 在动态的现实世界环境中产生幻觉的能力,我们引入了 HalEval-Wild,这是一个特别设计的评估幻觉的基准测试。通过收集现有的用户 - LLM 交互数据集中具有挑战性的用户查询,并使用强大的 GPT- - 确保可靠性:关于增强基础模型的上下文学习的简要概述
对基础模型和上下文学习进行可靠性和信任度的增强方法进行了调查,重点关注四种方法学及其相应的子目标。期望为研究人员和从业者提供有价值的见解,以建立安全可靠的基础模型,推动稳定一致的上下文学习环境,并释放其巨大潜力。
- 超越提示脆弱性:评估 LLMs 中政治世界观的可靠性和一致性
通过一系列的测试,我们评估了大型语言模型(LLMs)对政治表态的可靠性和一致性,结果表明 LLMs 的态度可靠性随参数数量的增加而增加,较大的模型整体上更偏向左翼政党,但在各项政策方案中存在差异。它们对环境保护、社会福利、法律和秩序表现出( - 超越准确性:开源深度学习项目中的单元测试的实证研究
深度学习模型的单元测试对于开源 DL 项目的可靠性至关重要,研究表明,单元测试 DL 项目在开源项目指标上具有积极的相关性和更高的合并请求接受率,但有 68% 的抽样 DL 项目没有进行单元测试。
- AAAI警惕:组装投影头以提高联邦模型的可靠性
研究发现异构数据导致联邦学习模型不可靠,提出了一种增强模型可靠性的方法,利用集成投影头消除偏差并提供可靠的预测。
- 认知和行为是否一致:探讨大型语言模型的个性
通过对大型语言模型进行人格问卷调查,本研究评估了这些模型在表达人类人格特质方面的可靠性,并通过与人类基准的综合分析,探讨了大型语言模型中认知行为分歧的程度,并提出了基于心理学理论和测量方法的假设。
- 神经哨兵:保护神经网络的可靠性和可信性
为了解决人工智能模型的可靠性和可信度问题,本文提出了一个名为 NeuralSentinel(NS)的工具,结合攻击和防御策略以及解释性概念来验证 AI 模型的可靠性和可信度,并帮助非专业人员通过理解模型决策来增强他们对这一新系统的信心。该工 - 潜在表示的多元宇宙映射
通过多元分析解决机器学习中的可靠性和鲁棒性问题,我们提出了 PRESTO,一个有原则的框架,用于映射依赖于潜在表示的机器学习模型的多元宇宙。我们的框架使用持久同调来表征不同组合的多样化机器学习方法,(超) 参数配置和数据集所产生的潜在空间, - 来见证:关于网络物理系统安全保障的一些观点
通过探讨与保障支持因为设计而参数要求(例如安全性、安全性和可靠性)的合规性的确证缺陷检测、模式依赖以改善确证方案结构、改进现有确证方案符号以及(半)自动化确证方案生成等方面的挑战,提出了一些可能的解决方向。
- 基于定点计算阵列的 DNN 加速器激活错误可靠性探索
本文提出了一种全面的方法,用于探索和评估量化对模型准确性、激活故障可靠性和硬件效率的三方面影响。通过各种量化感知技术、故障注入和硬件实现,实现了全自动化的框架,并提出了一种轻量级保护技术,以确保最终基于系统阵列的 FPGA 实现的可靠部署。 - 一种微体系结构事件感知的实时嵌入式系统故障注入器
本文介绍了一种用于监测、聚合和检查微架构事件的新型故障注入器,通过利用微处理器的 PMU 和调试接口,重点确保故障注入的重复性,与 SACRES 所需的关键时间可预测性之间建立了强大的相关性,从而实现对软错误的影响的全面分析。
- 科学和深度学习中的可靠性与解释性
通过深入的认识深度神经网络模型与传统科学模型之间的差异以及对可靠性评估可能产生的影响,本文强调了模型的假设的普遍作用和认识复杂性与可解释性之间的紧密关系,并提出了一些潜在的解决途径。
- 利用微地震测量和机器学习方法重建海浪数据
利用微震测量站和机器学习算法,本研究提出一种新的海浪监测系统,用以重建海浪浮标数据并提高可靠性。实验结果表明该系统能够克服浮标可靠性问题并保持同样的准确性。
- 为何随时间推移预测准确率下降?云故障预测的不确定性正向学习
在云计算的快速增长背景下,我们首次发现了云服务故障预测中的不确定正向学习问题,并设计了一种不确定正向学习风险估计器 (Uptake) 方法,通过在 Microsoft Azure 的真实数据集上进行实验,证明了 Uptake 平均可以提高 - 深度学习下的零样本微气候预测
利用从其他地理位置提取的知识,我们提出了一种新颖的零样本学习方法,用于预测新的未监测位置的各种气候测量值,该方法在预测微气候变量方面超越了传统的天气预测技术。
- Unicron: 大规模经济化自愈 LLM 训练
Unicron 是一个用于大规模语言模型训练的高效自愈工作负载管理器,在一个 128-GPU 分布式集群上的实际部署中,它展示了与最先进方法相比高达 1.9 倍的训练效率提升,显著降低了故障恢复成本,并提高了大规模语言模型训练的可靠性。
- 大型语言模型对因果推理是否需要全部知识?
该研究论文探讨了大型语言模型在提升人工智能的解释性和可靠性方面的因果推理。提出了一种利用 “do-operators” 构建反事实场景的因果归因模型,系统度量输入数值数据和语言模型先有知识对其因果推理过程的影响。实验评估发现,语言模型的因果 - EMNLPElo 揭示:语言模型评估的稳健性和最佳实践
在自然语言处理 (NLP) 中,Elo 等级系统被用于评估大型语言模型 (LLMs) 的准确性和可靠性,然而其在评估具有恒定技能水平,如 LLMs 等实体方面的适用性仍然相对未被探索。本文研究了评估方法应遵循的两个基本公理:可靠性和传递性,