- 基于梯度的模型修剪消除后门攻击
在日益关注网络安全威胁的时代,针对后门攻击的防御对于确保机器学习模型的完整性和可靠性至关重要。然而,许多现有方法要求大量数据以进行有效的缓解,给实际部署带来了重大挑战。为解决这个问题,我们提出了一种将后门攻击缓解视为一项取消学习任务的新方法 - 在大型语言模型中定位和缓解性别偏见
本研究提出了一种基于因果中介分析的方法来追踪大型语言模型中不同组件激活的因果效应,并在此基础上提出了最小二乘去偏(LSDM)方法,用于减少职业代词中的性别偏见,实验结果表明 LSDM 方法比其他基线方法更有效地减少模型中的性别偏见,同时在其 - 无监督概念发现减轻虚假相关性
我们提出了一种用于减轻虚假相关的概念平衡技术,通过利用现有的物体为中心的表示学习方法,无需对子群进行人工标注,在水鸟、CelebA 和 ImageNet-9 基准数据集上进行评估并展示了优越或竞争性的性能。
- 大型视觉语言模型中的幻觉调查
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外,我们 - 黑暗之后的黎明:大型语言模型中的事实错觉的实证研究
在大型语言模型时代,幻觉(即生成事实不准确的内容)对于在现实应用中可信可靠地部署语言模型构成了巨大的挑战。为了解决语言模型幻觉问题,本研究对幻觉检测、幻觉来源和幻觉缓解这三个重要问题进行了系统的实证研究。研究通过构建一个新的幻觉基准 Hal - 打破定型:一个统一框架用于审视推荐系统中的误判、偏见和刻板印象
评估推荐系统的系统性误差、刻板印象和校准问题,并提出了一种统一框架来衡量系统引起的效应,研究发现简单算法生成的推荐结果更符合刻板印象但偏差较小,而较复杂算法产生的推荐则存在更大的偏差,进而影响到非典型用户和少数群体,通过过采样来减少刻板印象 - 缓解联邦学习中的数据注入攻击
我们提出了一种新的技术来检测和缓解联邦学习系统中的数据注入攻击。我们的缓解方法是一个本地方案,在协调节点的单个训练实例中执行,允许在算法收敛时进行缓解。当怀疑一个代理是攻击者时,其数据将在一定时间内被忽略,此决策经常被重新评估。通过仿真实验 - 纠正和回溯法减少总结中的幻觉
通过使用 CoBa 技术,该论文提出了一种简单而有效的技术来减少抽象摘要中的幻觉现象,该方法通过测量有关条件概率和上下文词之间距离的简单统计数据来实现幻觉检测和缓解。
- AI 海洋中的塞壬之歌:大型语言模型中的幻觉调查
本文调查了近期关于大型语言模型(LLMs)幻觉的检测、解释和缓解的努力,并着重讨论了 LLMs 所带来的独特挑战,提出了 LLM 幻觉现象的分类和评估基准,并分析了现有的缓解 LLM 幻觉方法,探讨了未来研究的潜在方向。
- 及时处理,节省九倍:通过验证低置信度生成结果来检测和减轻 LM 的幻觉
本研究旨在积极检测和减轻生成过程中的 “幻觉” 问题,通过候选幻觉的识别、校验、减轻和继续生成的方法,成功降低了 GPT-3 模型的幻觉比例平均从 47.5% 下降到 14.5%。
- LLM 集成应用的提示注入攻击
本研究检验了大型语言模型中已存在的 Prompt Injection 攻击,设计了一种名为 HouYi 的黑盒 Prompt Injection 攻击技术,并发现其可造成诸如不受限制的任意 LLM 使用和简单的应用程序 prompt 窃取等 - 大型语言模型的自相矛盾幻觉:评估、检测和缓解
本文分析了自相矛盾在大型语言模型中的表现,并提出了评估,检测和缓解的方法。研究发现,自相矛盾经常发生,但我们开发的框架可以准确地检测和减少自相矛盾。
- CVPR模型无关性别去偏见图像描述
本文提出名为 LIBRA 的框架,通过学习从合成有偏差的样本中减少性别偏见,从而降低图像字幕模型中的两种性别偏见类型:利用上下文以预测性别的偏见以及因性别导致生成某些(通常是刻板印象的)词语的概率的偏见。
- 任务相似性对后门攻击和检测的影响理解
通过多任务学习相似度度量来定义后门距离,分析了现有的隐蔽后门攻击,揭示大部分攻击未能有效地降低后门距离,进而设计了 TSA 攻击,进一步理解后门风险并提供更有效的缓解措施。
- ACL事实” 的生命周期:知识图谱中社会偏见的调查
本文批判性分析了有关知识图谱生命周期中不同步骤中存在的偏见的文献,并调查了引入偏见的因素以及知识图谱及其嵌入版本所呈现的偏见。讨论了现有测量和减轻策略的局限性,并提出了未来的发展路径。
- 通过解释发现和修复虚假模式
本文提出了一种端到端的流水线,用于识别和减轻图像分类器中的伪模式,通过数据增强的方法减轻了伪模式,在没有伪模式的环境下提高了模型的准确性和鲁棒性。
- 社交媒体时代打击虚假信息
本文介绍了目前应对社交媒体上的虚假信息和制造内容的技术概述,探讨了虚假信息的不同形式以及传播相关因素,并展示了通过教育、研究和合作来减轻虚假信息影响的方法,同时提出了未来的应对策略。
- 一个众包平台上的机器学习模型是否会表现出偏见?模型公正性的实证研究
本文展示了在真实世界中基于 40 个高评分 Kaggle 模型的公平性评估及其 7 种缓解技术的实证研究。结果发现,部分优化技术会导致模型失公,尽管机器学习库中有公平控制机制,但这些机制未被记录。最佳的降低失公的方法往往存在权衡和代价.
- 知识蒸馏的有效性
本研究评估了知识蒸馏的有效性以及它对学生和教师体系的依赖性。发现较精确的教师并不一定是好教师,且大型模型并不总是更好的教师,这导致了容器不匹配的问题,本研究表明教师的训练中止可以缓解这种效应,这些结果适用于各种数据集和模型。
- EMNLP探讨具有语法性别的语言中的性别偏见
该研究提出了一种新的度量标准来评估西班牙语和法语等语言中的词嵌入性别偏见,并进一步证明了双语词嵌入与英文词嵌入存在性别偏见的一致性。同时作者还提供了一种新的方法用于缓解这种偏见。实验结果表明这些方法有效地减少了性别偏见,同时也保持了嵌入向量