Oct, 2023

为负责任的信息访问设计包容性语言模型

TL;DR使用大型语言模型(LLMs)进行日常任务时,应采取适当的措施以确保输出无偏见且安全。本研究引入了 “负责任的语言模型开发(ReDev)” 框架,以促进为所有用户开发公平、安全和稳健的 LLMs。我们还提出了一套独特提示类型的测试套件,以评估 LLMs 在公平性、安全性和稳健性等方面,确保生成的回应无害且没有偏见内容。我们通过测试套件评估了四个最先进的 LLMs:OPT、GPT-3.5、GPT-4 和 LLaMA-2,突显了在机器学习流程的每个阶段(包括数据筛选、训练和部署后)考虑公平性、安全性和稳健性的重要性。