- 成人重度抑郁症的不同治疗效益预测的深度学习模型的开发和验证,应用于人工智能抑郁症药物增效(AIDME)研究中
我们介绍了一个人工智能模型,旨在个性化治疗和改善成果,可以预测抑郁症患者使用不同药物治疗的结果,并在临床实践中获得了积极的改善。
- SmurfCat 参加 SemEval-2024 任务 6:利用合成数据进行幻觉检测
我们在 SemEval-2024 妄想检测任务中开发了新的系统,通过比较模型预测与参考标准,使用多种基线、通过监督学习改进预训练编码器以及使用几个高性能模型的集成方法,我们介绍了三种不同的方法,表现出强大的性能指标,并通过生成额外的训练样本 - 基于快速扩散的去除和生成捷径的对抗样本
通过快速扩散基于反事实的图像生成和基于修补的修改方法,我们检测和量化潜在的捷径特征对模型预测的影响。我们通过在两个大型胸部 X 射线数据集、一个皮肤病损数据集和 CelebA 上确认,验证了我们的方法在推理速度显著提升、图像质量与最先进技术 - 陈述性事实对 LLMs 推理能力的影响
通过测试影响大型语言模型预测的抽象声明,我们发现即使它们与程序性信息冲突,抽象声明仍然会影响模型的预测结果。这些结果在多个领域中都是一致的,并且与模型规模的增大关系不大。我们认为这些结果对 AI 风险 (与 “叛变点” 相关) 和公平性具有 - 图像数据归因的简单有效基础线
数据归因是理解机器学习模型的关键方法之一,我们提出了一种基于自监督学习预训练的最小化基线方法,对图像数据进行归因,这种方法计算成本低、内存占用少、易于扩展,且在 CIFAR-10 和 ImageNet 上实现了与现有方法相媲美甚至更好的性能 - Transformer 能学习最大公约数吗?
小型转换器在计算两个正整数的最大公约数方面的能力进行了调查,当选择训练分布和表示基时,模型可达到 98% 准确率,在前 100 个最大公约数中正确预测 91 个。模型的预测是确定性的且完全可解释的。
- 图神经网络中的差异、不平等和准确性权衡:节点分类
图神经网络(GNNs)在预测属性图中节点标签的关键人类应用中越来越常见。然而,GNNs 聚合邻居节点的特征以提高分类准确性的能力也可能加剧数据中现有的偏见或向保护性人口群体引入新的偏见。因此,必须量化 GNNs 的偏见程度以及减轻其有害效应 - 使用句法结构评估和解释大型语言模型在代码中的应用
ASTxplainer 是针对代码 LLMs 的一种可解释性方法,不仅能提供 LLM 评估的新方法,还能通过可视化 LLM 预测结果帮助终端用户理解模型预测。通过在常用的 GitHub 项目上进行实证评估和用户研究,研究结果表明 ASTxp - 链条思维推理中的忠实性测量
在大型语言模型中,通过分析模型预测的变化,研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响,但随着模型规模的增大,模型对大多数任务的推理越来越不可信,因此建议在选择模型规模和任务时谨慎使用 Chain - 探究姓氏对语言模型的因果效应:以社交常识推理为例
本研究旨在检验语言模型中名字对常识推理能力的影响,并提出了可控性实验框架和解释分析来证明了首次提出的假设,即一般的常识推理与他们所用的人名无关,结果显示人名的频次对模型的预测产生了不同的影响,并建议在数据集配置阶段增加更多多样性的人名以确保 - 影响函数的理论和实践视角
通过理论分析和实验测试,我们发现影响函数在现代深度神经网络中存在参数发散的局限性,但仍可用于模型调试和纠正误预测。
- 基于对抗攻击风险选择模型
本研究提出了一种基于统计学建模的评估方法,可以量化敌对攻击导致的危害风险,并演示了该方法的应用结果胜过传统的度量方法。
- INGREX: 图神经网络交互式解释框架
介绍了一种互动解释框架 INGREX,可用于解释复杂的图神经网络决策,涵盖了多个解释算法和高级库,有效地提升了用户理解模型预测的能力。
- ACL预训练语言模型在少样本微调中的问题
本文旨在解释提高小样本下的预训练语言模型的性能,发现未 fine-tune 的预训练模型表现出强烈的预测偏差,而 fine-tune 可以缓解预测偏差并展现出更好的性能,但研究还在探讨如何平衡预测行为和开发有利于小样本学习的模型评估方法。
- ACL评价归因分数中的逻辑陷阱
该论文系统地回顾了现有的评估归属分数的方法,并总结了这些方法中的逻辑陷阱,旨在提高人们对不准确评估归属分数的注意力,并建议停止关注在不可靠的评估系统下提高性能方面的努力,而是致力于减少逻辑陷阱的影响。
- ACL更大的预训练语言模型是否总体表现更好?在实例级别上进行比较
比较不同规模的语言模型在不同实例上的表现,发现 BERT-Large 在一定比例上比 BERT-Mini 表现差。建议研究人员结合模型预测来分析模型表现。
- 通过极简对比编辑(MiCE)解释 NLP 模型
该论文介绍了一种基于最小对比编辑(MiCE)的方法,用于以编辑输入的形式产生模型预测的对比解释,以修改模型输出到对比案例。MiCE 不仅是对比的,还是最小的和流利的,与人类对比编辑一致。该方法可以用于 NLP 系统开发中的两种用例:调试错误 - 可解释性之间的大象:既然有显著性方法,为什么要使用关注力作为解释?
本论文论述了在模型解释方面,关注度是否能够用作模型预测的解释存在争议,因为关注度虽然能够在每个输入令牌上提供一个权重,但往往不清楚它用作解释的目标是什么。作者认为,对于寻找与预测结果最相关的输入令牌并且解释的用户是模型开发人员的目标和用户, - 可解释的人工智能是否能改善人类决策?
使用真实数据集进行对比和评估,在控制组、具有 AI 预测(未解释),以及具有解释的 AI 预测三组中比较和评估了人类决策的客观准确性。然后发现提供任何形式的 AI 预测都倾向于提高用户的决策准确性,但没有确凿的证据表明解释性 AI 具有实质 - 不让历史纠缠您 —— 缓解对话式问答中的复合误差
本文针对谈话式问答(CoQA)任务中可能出现的由于模型先前的预测答案导致的错误累积问题,提出了一种采样策略,旨在在训练期间动态地在目标答案和模型预测之间进行选择,并分析了此现象的严重程度与问题类型,对话长度和域类型的关系。