MBIAS: 大型语言模型中减轻偏见并保留上下文

May, 2024

MBIAS: 大型语言模型中减轻偏见并保留上下文

MBIAS: Mitigating Bias in Large Language Models While Retaining Context

Shaina Raza, Ananya Raval, Veronica Chatrath

TL;DR为了保证 Large Language Models（LLMs）的安全性，同时保持其上下文准确性，提出了 MBIAS 框架，通过在自定义数据集上进行指令微调，优化 LLMs 生成中的偏见和毒性问题，实验结果表明，MBIAS 能够在保持关键信息的同时，将总体偏见和毒性减少 30% 以上，且在各个人口统计学数据上的测试中，偏见和毒性减少超过 90%。

Abstract

In addressing the critical need for safety in large language models (LLMs), it is crucial to ensure that the outputs are not only safe but also retain their contextual accuracy. Many existing LLMs are safe fine-t

large language models safety bias toxicity mbias

发现论文，激发创造

COBIAS：偏见评估中的情境可靠性

大型语言模型 (LLMs) 的研究及应用中存在偏见问题，本论文提出了一种基于上下文的偏见指标和评估分数 (COBIAS) 来测量偏见的可靠性，并且通过创建可靠的数据集来改善偏见减轻工作。

Feb, 2024

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

KoSBI：减少社会偏见风险的数据集，以更安全的大型语言模型应用为目标

通过构建本土化社会偏见数据集，可以减少韩国大型语言模型的社会偏见，有效地保证其安全、可靠、有效地部署。

May, 2023

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为 GPTBIAS 的偏见评估框架，它利用 LLMs 的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

在大型语言模型的优化过程中测量风险：导航安全景观

通过测量和可视化大型语言模型（LLMs）的安全景观，我们发现了一种称为 “安全盆地” 的普遍现象，该现象在流行的开源 LLMs 模型参数空间中观察到。我们提出了一种新的安全度量标准，VISAGE 安全度量标准，用于通过探测安全景观来衡量 LLMs 微调的安全性，并通过可视化的安全景观了解 LLMs 通过微调如何降低其安全性。LLMs 的安全景观还突出了系统提示在保护模型中的关键作用，并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于 LLMs 安全性的工作提供了新的见解。

May, 2024

InSaAF：通过准确性和公平性加强安全性 | LLM 是否准备好进入印度法律领域？

近年来，语言技术和人工智能的最新进展在法律领域提出了众多语言模型，从预测判决到生成摘要等多种任务。本研究探讨了大规模语言模型（LLMs）在印度社会因素参与的法律任务中的能力。我们提出了一种新的度量标准，即加权法律安全评分（$LSS_{eta}$），综合了 LLM 的公平性和准确性。我们通过考虑 LLM 在二元法定推理任务中的性能以及在印度社会的各个不平等因素上的公平展现来评估 LLMs 的安全性。LLaMA 和 LLaMA--2 模型的任务性能和公平性得分表明，所提出的 $LSS_{eta}$ 度量标准可以有效决定模型在法律领域中的安全使用准备性。我们还提出了利用专门的法律数据集进行微调流程的方法，以减轻偏见并提高模型的安全性。对 LLaMA 和 LLaMA--2 模型的微调流程提高了 $LSS_{eta}$，提高了它们在印度法律领域中的可用性。我们的代码已公开发布。

Feb, 2024

大型语言模型（LLM）偏差指数 -- LLMBI

大型语言模型偏差指数（LLMBI）通过量化和解决大型语言模型（如 GPT-4）中固有的偏见，为多元领域中越来越普遍和重要的大型语言模型引入了一种创新的度量方法。该研究构建了 LLMBI，通过包括但不限于年龄、性别和种族偏见在内的多个偏见维度的复合评分系统，系统地衡量和缓解可能影响模型响应的偏见。通过收集和注释大型语言模型的响应，应用先进的自然语言处理（NLP）技术进行偏见检测，并通过专门设计的数学公式计算 LLMBI 得分，该公式综合了多个偏见维度的加权平均、数据集多样性不足的惩罚和情感偏见的校正。实证分析使用 OpenAI 的 API 响应进行，在代表性的偏见检测方法中采用了先进的情感分析。研究发现，虽然 LLMs 在文本生成方面展示了令人印象深刻的能力，但在不同维度上存在不同程度的偏见。LLMBI 为比较不同模型和不同时期的偏见提供了量化度量，为系统工程师、研究人员和监管机构提供了重要工具，以提高 LLMs 的公平性和可靠性。它突显了 LLMs 在模仿无偏人类响应方面的潜力，并强调了持续监测和校准此类模型以与不断发展的社会规范和道德标准保持一致的必要性。

Dec, 2023

LLM 风险与 AI 防护栏的现状

大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署 LLMs 所面临的风险，并评估了目前实施防护和模型对齐技术的方法，从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护 LLMs 的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保 LLMs 在实际应用中的安全和负责任使用。

Jun, 2024

利用上下文学习提高对话安全性

本文研究使用一种基于检索的框架来减少使用神经网络的聊天机器人系统中可能出现的安全问题和偏见，并使用上下文学习生成更加安全的回复，其中演示了使用检索的相似的对话框架所做过的安全模型回答，此方法达到了相对理想的结果。

Feb, 2023

所有语言都重要：关于大型语言模型的多语言安全性

我们建立了第一个多语言安全基准（XSafety）用于大型语言模型的开发和部署，在实验中发现所有的大型语言模型对非英语查询的不安全回复明显增多，为此我们提出了几种简单有效的提示方法，从而显著提高 ChatGPT 的多语言安全性。

Oct, 2023