interpretability tools | BriefGPT

关键词interpretability tools

搜索结果 - 5

通过最大紧张图像理解抑制
本论文研究了视觉模型中 ' 特征抑制 ' 的功能作用，即神经网络如何确保图像不表达给定的特征，提出通过研究 ' 最紧张的图像 '（MTIs）来理解抑制作用，介绍了两种新的可视化技术和大量探索性研究。
PDFa month ago
可解释的人工智能整合特征工程用于野火预测
通过深入研究，我们评估了各种机器学习算法在预测野火相关任务中的分类和回归任务方面的有效性。我们发现，对于不同类型或阶段的野火分类，XGBoost 模型在准确性和稳健性方面优于其他模型。与此同时，Random Forest 回归模型在预测受野
PDF3 months ago
解释学习得到的奖励函数与反事实轨迹
通过对比原始和反事实的部分轨迹及其各自接收的奖励，我们提出了反事实轨迹解释（CTEs）来解释强化学习中的奖励函数，证明了 CTEs 对代理人模型具有信息量，使其预测与未见轨迹上的奖励函数更加相似，并且在不同分布的示例中具有泛化能力，从而为解
PDF5 months ago
LLMCheckup: 通过可解释性工具对大型语言模型进行对话式检测
通过多种解释工具，包括对话式解释和多提示解析策略，LLMCheckup 提供了一种易于操作的方法，使用户能够与大规模语言模型进行互动，并生成自我解释和意图识别的解释。
PDF5 months ago
深度神经网络自动复制 / 粘贴攻击的诊断
介绍了一种名为 SNAFUE 的自动化方法，可用于识别神经网络的弱点，以找到‘复制 / 粘贴’攻击，利用这种方法可以生成对抗性数据。
PDF2 years ago