interpretability technique | BriefGPT

关键词interpretability technique

搜索结果 - 5

如何使用和解读激活修补
激活修补是一种流行的机械解释技术，但在应用和解释结果方面存在许多细微之处。我们根据使用这种技术的经验提供了建议和最佳实践的摘要，包括不同的激活修补应用方式的概述及结果解释的讨论。我们着重介绍激活修补实验对电路的提供的证据以及度量选择及相关陷
PDF2 months ago
合成情感控制的多模态文本和图像数据的反馈
通过构建一个大规模的、可控制的多模态反馈合成（CMFeed）数据集，我们提出了一个可控制的反馈合成系统，该系统能够生成文本和图像输入的感情控制反馈，通过使用 transformer 和 Faster R-CNN 网络提取文本和图像特征，并结
PDF5 months ago
直接逻辑归因的对抗示例：gelu-4l 中的内存管理
我们提供了一个 4 层变压器的内存管理的具体证据，具体而言，我们确定了清理行为，即模型组件在前向传递期间持续删除先前组件的输出。我们的研究结果表明，可解释性技术 Direct Logit Attribution 提供了误导性的结果，我们展示
PDF9 months ago
可解释的多模态情感识别：利用面部特征和生理信号
本文介绍了一种融合了多种多样信息的多模态框架，通过将来自视觉面部特征和视频输入中提取的 rPPG 信号的信息融合从而实现情感理解。基于排列特征重要性分析的解释性技术用于计算 rPPG 和视觉模态对将给定视频分类到特定情感类别的贡献。IEMO
PDFa year ago
ACL利用概念激活向量提高隐式辱骂语言检测的泛化能力
本研究展示了一些机器学习模型在检测内含性较高的新兴讽刺性辱骂语言方面具有不足，提出了一种用于量化训练模型对明示和暗示辞职性侮辱语言的敏感度的解读技术，基于该技术，引入了 “语言明示度” 度量标准，可用于富含有关内隐性滥用文本的训练数据的建议
PDF2 years ago