为负责任的信息访问设计包容性语言模型

Oct, 2023

为负责任的信息访问设计包容性语言模型

Design-Inclusive Language Models for Responsible Information Access

Veronica Chatrath, Oluwanifemi Bamgbose, Shaina Raza

TL;DR使用大型语言模型（LLMs）进行日常任务时，应采取适当的措施以确保输出无偏见且安全。本研究引入了 “负责任的语言模型开发（ReDev）” 框架，以促进为所有用户开发公平、安全和稳健的 LLMs。我们还提出了一套独特提示类型的测试套件，以评估 LLMs 在公平性、安全性和稳健性等方面，确保生成的回应无害且没有偏见内容。我们通过测试套件评估了四个最先进的 LLMs：OPT、GPT-3.5、GPT-4 和 LLaMA-2，突显了在机器学习流程的每个阶段（包括数据筛选、训练和部署后）考虑公平性、安全性和稳健性的重要性。

Abstract

As the use of large language models (LLMs) increases for everyday tasks, appropriate safeguards must be in place to ensure unbiased and safe output. Recent events highlight ethical concerns around conventionally

large language models ethical concerns responsible development of language models fairness safety

发现论文，激发创造

构建安全负责的大语言模型 -- 一个综合框架

为了提高语言生成模型的安全性，我们引入了安全可靠的大型语言模型 SR$_{ext {LLM}}$，通过使用细致标注的数据集和多种方法来识别潜在的不安全内容，并生成无害的变体。经过对多个数据集的测试，我们观察到不安全内容的生成显著减少，同时在安全内容的生成方面也有明显的改进。我们的工作详细描述了 SR$_{ext {LLM}}$ 的微调过程，并通过社区参与来推动 LMM 的负责任推进。

Apr, 2024

LLM 风险与 AI 防护栏的现状

大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署 LLMs 所面临的风险，并评估了目前实施防护和模型对齐技术的方法，从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护 LLMs 的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保 LLMs 在实际应用中的安全和负责任使用。

Jun, 2024

个性化语言模型中的安全性 - 效用权衡探索

大型语言模型（LLMs）在日常应用中变得越来越普遍，因此需要确保它们在各种用户群体之间公正地运行。本文揭示了 LLMs 存在个性化偏差的问题，也就是当 LLMs 根据用户的身份进行个性化设置时，它们的性能会受到影响。我们通过评估 LLMs 在安全性和效用两个维度上的表现来量化个性化偏差。结论发现，不同的 LLMs 在安全性和效用的权衡方面存在显著的性能差异，这取决于用户的身份。最后，我们探讨了一些使用偏好调优和基于提示的防御策略来减轻个性化偏差的方法。

Jun, 2024

加强人工智能中的道德界限：提升大型语言模型安全的高级策略

通过引入多方面的方法，包括过滤敏感词汇、检测角色扮演、实施自定义规则引擎和扩展到各种大型语言模型衍生物，我们解决了大型语言模型在道德、安全和隐私方面的挑战，并且保持了高性能。这项研究为平衡问答系统的效率与用户隐私和道德标准提供了一个框架，确保了更安全的用户体验并增加了对 AI 技术的信任。

Jan, 2024

通过可控的大型语言模型实现安全性和帮助性平衡的响应

我们提出通过在大型语言模型中控制安全性和有益性来平衡多种用例，采用训练无关和微调方法来分析在语言模型中控制安全性和有益性的挑战，并通过实验验证了我们的方法可以控制模型并提供帮助。

Apr, 2024

安全可靠的 LLM 检测器：实施、应用和局限性

为了应对大规模语言模型的各种风险以及提供有效的人工智能治理，我们致力于创建和应用一套迅速、可靠的检测器模型，旨在识别各种有害输出，并探讨了其发展中的挑战和未来工作。

Mar, 2024

TroubleLLM: 与红队专家对齐

通过提出的第一个 LLM 模型 TroubleLLM 在 LLM 安全问题上生成可控的测试提示，广泛的实验和人工评估表明 TroubleLLM 在生成质量和生成可控性上的优越性。

Feb, 2024

大型语言模型（LLM）的利用中的挑战和影响因素

当面临领域特定问题时，大语言模型（LLMs）可能会遇到问题，如知识遗忘、知识重复、知识幻觉以及知识毒性，这些问题突显了 LLMs 的训练数据和算法设计的困扰。为了解决这些问题，建议对训练数据进行多样化，微调模型，提高透明度和可解释性，并引入伦理和公平性培训。未来的技术趋势可能会倾向于迭代方法学、多模态学习、模型个性化定制以及实时学习和反馈机制。最重要的是，未来的 LLMs 应确保在为人类服务时优先考虑公平、透明和伦理，确保它们持有高的道义和道德标准。

Oct, 2023

您的大型语言模型暗自支持公平性，您应该像公平支持者一样进行提示

通过为大型语言模型提供具体角色，我们开发了一个自动生成角色的流程，使得大型语言模型能够表达多元化的观点，从而解决其存在的公平性问题。

Feb, 2024

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023