- 朝着大规模多语言整体偏见
在当前自动生成语言的研究领域,随着现有模型变得越来越多语种化,有必要了解、评估和减轻人口统计偏见。为了解决这个问题,我们提出了 MASSIVE MULTILINGUAL HOLISTICBIAS(MMHB)数据集和基准测试,初始使用八种语言 - FrenchToxicityPrompts:法文文本中评估和缓解有害性的大型基准
我们创建并发布了 FrenchToxicityPrompts 数据集,评估了 14 种不同的大型语言模型对于 50K 个自然发生的法语提示及其延续的潜在有害性,并希望这一贡献能促进对除英语以外语言的有害性检测和缓解的未来研究。
- 跨语言现实事件中的有毒性
我们研究了真实世界事件对在线讨论中毒性起源和传播的影响,通过收集来自六种不同语言(荷兰语、英语、德语、阿拉伯语、土耳其语和西班牙语)的 Reddit 数据,包含了 15 个重大社会政治事件在 2020 年至 2023 年期间发生时产生的 4 - ACL对抗性数据预处理:减少对话代理中的毒性同时对连贯性和伪装性的影响最小化
创新的训练算法 ADPO 提高了模型对有害对话的鲁棒性,同时最大限度地减少性能下降,并首次将有害数据直接纳入生成模型中,减少了人工创建安全对话数据的需求。
- MBIAS: 大型语言模型中减轻偏见并保留上下文
为了保证 Large Language Models(LLMs)的安全性,同时保持其上下文准确性,提出了 MBIAS 框架,通过在自定义数据集上进行指令微调,优化 LLMs 生成中的偏见和毒性问题,实验结果表明,MBIAS 能够在保持关键信 - 大型语言模型中毒性的实际评估
该研究介绍了新的 “全面优化毒性”(TET)数据集,由手工设计的提示构成,旨在抵消这些模型的保护层,通过广泛的评估,证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用,凸显了正常提示下可能隐藏的 LLMs 中的毒性,从而揭 - HATE 中的常数:在 Reddit 上跨主题和语言分析毒性
本研究通过对 Reddit 社交媒体平台上的对话进行跨主题和跨语言的毒性分析,收集了来自六种语言、481 个社区的 150 万个评论串,涵盖了文化、政治和新闻等 80 个主题。我们深入分析了毒性如何在不同社区中在特定主题上呈现出峰值,并观察 - 衡量网络性别歧视的整体指标
使用监督自然语言处理方法和无监督词嵌入关联测试,本研究构建了一个可以提供针对男性和女性特征以及男性和女性个体的全面性中毒性指标的模型,应用于性别话语社区,并准确地测量了社区中性别歧视的水平。
- 伦理学:在正交参数空间中修正语言模型
我们提出了一种新的高效方法 Ethos,通过将任务向量投影到主成分上,从而识别编码了一般或不希望知识的主成分,以仅使用包含不希望知识的任务向量进行否定,从而最小化对一般模型效用的附带损害,实验证明 Ethos 在消除不希望知识和保持整体模型 - Aya 模型:一种指令微调的开放式多语言语言模型
用 101 种语言的指令追踪的 Aya 广泛多语言生成语言模型在多任务中表现优越,同时扩展了用于 99 种语言的多语言评估的最新技术水平,并进行了关于优化微调混合成分、数据修剪以及模型的毒性、偏见和安全性的详细研究。
- 出版文本的社会进化与大型语言模型的出现及其毒性与偏见问题
AI 和深度学习的快速发展在大型语言模型中具有突破性的出现,这里提醒过度乐观的人关注毒性、偏见、记忆、奉承、逻辑不一致以及幻觉的存在,并指出人类智能只是一种规模放大的灵长类脑的案例。
- ArthModel: 提升大型语言模型的算术技能
通过训练语言模型生成与算数问题相关的后缀表达式,并将其与小型预训练模型结合,将令牌嵌入转化为真实稠密数字,通过深度学习平台的本地函数获得正确答案。最后,通过提示注入将小型模型的结果输出添加到语言模型中,从而增强了语言模型的算数能力。
- 开源语言模型的可信度 —— 恶意示范中的评估揭示了它们的脆弱性
大型语言模型在开源方面取得的快速进展明显推动了人工智能的发展。本文通过对毒性、公平性、对抗性可信度攻击等八个不同方面的细致考察,提出了一种基于言辞链的引导策略,显示出该攻击策略的高效性以及在不同方面的应用。此外,研究还发现,在一般自然语言处 - 评分者分歧的分类:从在线毒性注释角度调查挑战与机遇
在线空间中的毒性问题是一个日益普遍且严重的问题,因此,过去十年的机器学习研究重点放在计算检测和缓解在线毒性上。然而,由于历史上此类标注往往存在较低的一致性,最近的研究指出了在构建和利用这些数据集时考虑这一任务的主观性的重要性,并激发了对评定 - 关于自我纠正和语言模型信任的交叉问题
通过探索大型语言模型的自我纠正能力,研究发现自我纠正能够提升大型语言模型的可信度和真实性,但这种改进程度会根据可信度的具体方面和任务的性质而有所不同,并发现大型语言模型在自我纠正过程中存在自我怀疑的实例,带来了一系列需要解决的新挑战。
- ChatGPT 毒性的全面评估
我们评估了 ChatGPT 中的毒性,并发现其毒性取决于提示的不同属性和设置,包括任务、领域、长度和语言,发现创意写作任务的提示可能比其他任务更容易引发有毒反应,德语和葡萄牙语的提示也会使反应的毒性加倍,此外,我们发现早期研究中设计的某些存 - N-Critics: 大型语言模型的自我提升与评论家集成
提出了一种用于改善大型语言模型的自我纠正机制,通过批评家与模型自己的反馈对模型输出进行精炼,以减轻毒性和事实幻觉等问题。通过人类行为的启发,探讨了大型语言模型是否可以模仿人类的自我纠正过程,即借助自评和寻求他人意见来完善对复杂主题的理解。该 - 仅需演示:推进利用上下文学习进行攻击性内容转换
转述冒犯内容是一种比删除内容更好的选择,有助于提高在交流环境中的文明性。本文利用大型语言模型中的上下文学习来发展可用的转述器,通过有限数量的输入 - 标签对指导模型生成特定查询的期望输出,研究了演示数量和顺序、排除提示指令以及降低有毒性等关 - 语言模型中的系统性攻击性刻板印象偏差(SOS)
我们研究了语言模型中的系统性冒犯性刻板印象偏见,并提出了一种测量方法。我们验证了语言模型中的冒犯性刻板印象偏见,并研究了文献中消除该偏见的去偏方法的有效性。结果表明,所有研究的语言模型都存在冒犯性刻板印象偏见,而去偏方法对冒犯性刻板印象偏见 - 理解开放域聊天机器人中的多轮有害行为
设计了一种名为 oxicbot 的新攻击方式,通过对话序列来触发多轮对话中聊天机器人生成有毒回复,使得聊天机器人模型可以被触发生成有毒回复,进而绕过两种防御方法,需要进一步研究解决动态交互环境下聊天机器人的毒性问题。