- ACL揭示语言模型中的数据污染谱系:从检测到修复的概述
数据污染在大型语言模型 (LLMs) 时代引起了越来越多的关注,由于依赖于广泛来源于互联网的训练语料库。重叠训练语料库与评估基准的问题(称为污染)已成为重要的研究焦点。本文介绍了数据污染领域的综合调查,阐述了关键问题、方法和迄今为止的研究结 - 代码生成的 LLM 对包装迷思的综合分析
该研究通过对不同编程语言、设置和参数的 LLMs 配置进行严格全面的评估,探索了不同 LLMs 配置如何影响生成错误软件包建议的可能性,并识别了这种现象的根本原因。结果表明,所有经过测试的 LLMs 中有 19.7% 的生成软件包是产生幻觉 - IJCAI全球 Clipper:增强基于 Transformer 的目标检测模型的安全性和可靠性
通过引入全局剪贴板和全局混合剪贴板的有效缓解策略,该研究旨在增强基于 Transformer 模型的鲁棒性,减少软错误导致的错误推断,并对注意力块在 Transformer 中的独特方面及其与 CNNs 的操作差异进行了详细研究。
- BiasKG: 用对抗知识图谱在大型语言模型中引入偏见
现代大型语言模型拥有丰富的世界知识,可以在正确利用的情况下在常识推理和知识密集型任务方面取得强大的性能。然而,语言模型也能够学习社会偏见,可能对社会造成重大危害。本文提出了一种使用知识图谱增强生成模型的攻击语言模型的新方法,并采用敌对攻击策 - 增强型 CARDS:一种用于在 Twitter 上识别气候变化错误信息触发器的机器学习方法
应对气候变化的自动化检测引发了关于气候变化的错误信息传播以及对社会福利构成了重大威胁的紧迫需求,本研究通过开发了一个两步骤的层次模型 —— 增强 CARDS 模型,专门用于检测推特上的气候异议观点,然后将其应用于 2022 年的六个月内的五 - 揭示神经反向渲染中的歧义性:参数补偿分析
通过利用神经微面场 (NMF) 作为一种先进的神经反渲染方法,本文旨在阐述反渲染的固有模糊性,并提出了一种评估框架来评估预估场景属性之间的补偿或相互作用程度,以探索这个不适定问题的机制和潜在缓解策略。实验结果强调了神经反渲染中的内在模糊性, - LLM 安全风险评估:全面的利益相关方风险评估方案
利用 OWASP 风险评估方法,通过场景分析确定潜在威胁者并将系统组成部分与漏洞因素进行映射,从而评估网络攻击的可能性,并进一步进行综合影响分析以得出威胁矩阵,以提供对 LLM 相关风险的全面评估,帮助利益相关者制定有效的缓解策略。
- 保护大型语言模型:威胁、漏洞和负责任的做法
对大型语言模型(LLMs)的安全与隐私问题进行了全面的研究,从安全与隐私问题、对抗性攻击的脆弱性、滥用影响、缓解策略以及当前策略的局限性等五个主题角度进行深入探讨,并提出了未来研究的有前景的方向,以增强 LLMs 的安全和风险管理。
- 适应健康领域视角重新思考城市洪水风险评估
该论文通过健康风险评估的思想,提出了一种新的洪水风险评估视角,重点关注三个方面:固有易感性、减灾策略和外部压力。这种新视角从破译洪水风险的新角度切入,旨在缓解对精确建模和量化洪水风险的追求,通过将洪水风险途径分解为固有因素、减灾策略和外部压 - 面向医学领域的安全对齐大型语言模型
本文首次对医学 LLMs 进行了安全评估,讨论了医学 LLMs 的安全和对齐性,并展示了微调作为有效的缓解策略,希望这项工作能够启发未来的研究,并开发出更多的缓解策略,以减少医学 LLMs 在医学领域中的潜在风险。
- GATE X-E:弱性别语言的性别平等翻译挑战集
神经机器翻译在质量和应用方面不断改进,但性别偏见的无意中延续仍是一个重要问题,尤其缺乏评估和减轻策略的基准,本研究通过引入 GATE X-E 扩展了 GATE 语料库,提供了从土耳其语、匈牙利语、芬兰语和波斯语到英语的人工翻译及其女性化、男 - 大型语言模型系统的风险分类、缓解和评估基准
通过探索大型语言模型系统的四个关键模块,即接收提示的输入模块,基于丰富语料库的语言模型,用于开发和部署的工具链模块以及生成语言模型内容的输出模块,本文提出了一种综合分类方法,系统分析了每个模块可能涉及的潜在风险,并讨论了相应的缓解策略。此外 - 评估性别中性语言翻译为英语的性别偏见
机器翻译在质量和应用方面不断取得进步,然而无意中传递性别偏见仍然是一个重大问题。为了弥补这一缺口,我们介绍了 GATE X-E,它是 GATE 语料库的扩展,包含了从土耳其语、匈牙利语、芬兰语和波斯语翻译成英语的人工翻译,并针对每种可能的性 - 众包工作中大型语言模型的使用情况和预防措施
我们的研究显示,在人群工作者中普遍使用大型语言模型 (LLM),而有针对性的缓解策略可以显著降低 LLM 的使用,但不能完全消除。在一个文本摘要任务中,未对工作者在任何方面指示 LLM 的使用,估计 LLM 的使用普遍程度约为 30%,但通 - 开源大型语言模型的安全性:对齐是否真的能防止滥用?
通过直接操纵开放源代码的大型语言模型的生成过程,我们展示了它们容易被引导生成不受欢迎的内容,包括有害或有偏见信息甚至私人数据,这表明需要更先进的开源语言模型缓解策略。
- 基于 LLM 的代码生成中的偏见评估与缓解
基于最新的大型语言模型 (LLMs) ,本研究提出了一个面向代码生成任务的新型偏差评估框架,并对九种最先进的 LLM-based 代码生成模型进行了广泛评估。研究发现,我们评估的代码生成模型中有 31.45% 到 79.93% 的代码函数存 - 基于接受控制措施的病毒蔓延的代理模型模拟
通过结合改进的 SEIRD 模型和公民决策模型,本研究提出了一个基于 Agent-Based Modeling (ABM) 的架构,可用于分析社会中病毒感染的演变过程,考虑到传染病防控措施的接受与拒绝对病毒传播的影响。
- 神经符号概念不全是平等的:分析和缓解推理捷径
本文针对神经符号预测模型的推理快捷方式进行了系统表征,并鉴定了其发生的四个关键条件,提出了多种自然化缓解策略,并从理论和经验上分析了它们的功效,揭示了推理快捷方式的处理难度以及可能对现有神经符号解决方案的可靠性和可解释性产生质疑。
- 在图像生成中减少不适当性:反映世界丑陋的价值是否存在?
该研究针对基于数据驱动的文本 - 图像生成模型在大规模情况下生成不适当内容的问题,提出了一种评估和缓解策略,通过对模型对世界 “丑陋” 的表达来与人类偏好进行对齐,以达到有效防止不适当内容的生成。
- SSL 模型是否有 déjà vu?自监督学习中无意识 memorization 的情况
本文研究了自监督学习算法中的 deja vu 记忆现象,该现象将 image-specific 信息非预期地编码进模型,从而带来潜在的隐私风险。作者展示了这种记忆现象的存在性、普遍性和难以检测性,并提出了可能的缓解策略。