规模化的多语言机器翻译中的毒性问题
MinTox 是一个新颖的流水线,用于识别和减轻翻译中的增加毒性问题,并在推理时工作。MinTox 使用多模态的毒性检测分类器,并在规模化和直接的文本输出中应用于多语言。在 SEAMLESSM4T 系统中,MinTox 实现了领域、模态和语言方向的显著毒性缓解,从而滤除了 25% 至 95% 的增加毒性,同时保持翻译质量。
Nov, 2023
我们探讨了一些减轻大型语言模型毒性的策略,并分析了这些策略对模型偏差和质量的影响。我们发现:虽然基本的干预策略可以有效地优化先前建立的自动指标,但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时,我们还发现,在强减毒干预之后,人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。
Sep, 2021
我们创建并发布了 FrenchToxicityPrompts 数据集,评估了 14 种不同的大型语言模型对于 50K 个自然发生的法语提示及其延续的潜在有害性,并希望这一贡献能促进对除英语以外语言的有害性检测和缓解的未来研究。
Jun, 2024
该研究介绍了新的 “全面优化毒性”(TET)数据集,由手工设计的提示构成,旨在抵消这些模型的保护层,通过广泛的评估,证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用,凸显了正常提示下可能隐藏的 LLMs 中的毒性,从而揭示了它们行为中更微妙的问题。
May, 2024
本文描述了 'Moj Masti' 团队提出的系统,使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据,重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务,最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能,并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能,从而将我们放在了排行榜的第一位。
Jan, 2022
通过引入 PolygloToxicityPrompts(PTP)评测标准,我们对 17 种语言的 425K 自然出现的提示进行了首次大规模多语种毒性评估,发现了语言资源减少和模型大小增加会增加毒性的现象,并且指导性微调方法选择对毒性没有显著影响,揭示了大型语言模型安全性的关键不足之处,并为未来的研究提供了重要的方向。
May, 2024
我们评估了 ChatGPT 中的毒性,并发现其毒性取决于提示的不同属性和设置,包括任务、领域、长度和语言,发现创意写作任务的提示可能比其他任务更容易引发有毒反应,德语和葡萄牙语的提示也会使反应的毒性加倍,此外,我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应,希望我们的发现可以指引模型开发者更好地监管这些 AI 系统,并帮助用户避免不良输出。
Nov, 2023
本研究系统评估了 ChatGPT 这个常用的基于对话的大型语言模型中的亵渎问题,发现为 ChatGPT 分配一个假想的人物角色(如拳击手穆罕默德・阿里)会显著增加生成结果的亵渎程度,其中涉及不正确的刻板印象、有害的对话和伤人的观点,这可能损害该假想角色的名誉并对无意中接触该系统的用户造成伤害,并且还存在特定实体(例如某些种族)比其他实体被定位更多的有关问题,这反映了模型内在的歧视性偏见。研究希望激发广泛的人工智能社区重新思考当前安全防护措施的功效,并开发出更好的技术,以实现强大、安全和值信赖任的 AI 系统。
Apr, 2023
通过在缺少资源的乌克兰语中,使用跨语言知识迁移技术,从英语语料库中翻译、使用关键词过滤有毒样本,并通过众包进行注释,填补了有关乌克兰语毒性分类语料库的差距,比较了 LLMs 诱导和其他跨语言迁移方法以及有无微调的鲁棒性和效率最高的基线模型。
Apr, 2024