本文对语言生成模型潜在威胁与社会危害进行了调查研究,提供了探查与缓解风险和伤害的实用方法,旨在为大型语言模型研究人员和从业者提供实用指南。
Oct, 2022
通过对大规模语言模型的调查,本研究首次提供了关于语言模型隐私的技术综述,包括攻击与缓解策略的分类、现有攻击的趋势、现有缓解策略的强项与局限性,找出关键缺口并提出解决问题的方法与关切领域。
Sep, 2023
本文全面调查了与大型语言模型(LLMs)相关的伦理挑战,从长期存在的问题,如侵犯版权、系统性偏见和数据隐私,到新兴问题,如真实性和社会规范。我们批判性地分析了现有研究,旨在理解、审查和减轻这些伦理风险。我们的调查强调了将伦理标准和社会价值融入 LLMs 的开发中,从而引导负责任和道德对齐的语言模型的发展。
Jun, 2024
本文对大型语言模型(LLMs)中的风险评估问题进行了探讨,并重点研究了奖励模型在感知和分类不同类型风险时面临的挑战,通过使用 Anthropic Red 团队的数据集,对信息风险、恶意用途和歧视 / 仇恨内容等主要风险类别进行了分析,研究结果表明 LLMs 倾向于认为信息风险较少有害,并通过特殊开发的回归模型对此进行了确认,此外,研究还揭示了 LLMs 在信息风险场景中对风险反应较不严格,强调了 LLM 风险评估中的关键安全问题以及对改进人工智能安全措施的需求。
Mar, 2024
通过探讨语言学习模型的安全威胁,本文全面研究了一系列涉及伦理道德的挑战,包括数据安全、隐私保护等问题,提出了一种定制的评估工具,用于加强语言学习模型的后端系统,并在测试阶段评估其伦理维度与社会伦理价值之间的一致性。
Jan, 2024
通过针对大型语言模型(LLM)存在的安全风险进行评估,本研究填补了当前研究的空白,并提出了一种基于提示的攻击风险分类方法,以强调 LLM 在用户 - 模型通信路径上的安全风险。该分类方法通过具体的攻击示例加以支持,并旨在为安全性强、值得信赖的 LLM 应用程序的开发提供指导。
Nov, 2023
对大型语言模型(LLMs)的安全与隐私问题进行了全面的研究,从安全与隐私问题、对抗性攻击的脆弱性、滥用影响、缓解策略以及当前策略的局限性等五个主题角度进行深入探讨,并提出了未来研究的有前景的方向,以增强 LLMs 的安全和风险管理。
通过开放式提示,我们发现模型产生的文本在描绘边缘群体的身份时存在错误、隐含和刻板印象的问题,这些问题可能导致心理伤害和认知能力下降。
Apr, 2024
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
该研究探讨引起关注的生成式语言模型在教育领域可能产生的心理社会危害,分析了与学生课堂互动相关的 15 万个 100 字的故事中生成式语言模型所产生的角色人口统计学和再现伤害,强调了生成式人工智能工具在多样化社会环境中部署和使用时对于具有边缘化和少数族裔身份的用户体验可能产生的心理社会影响的重要性。
May, 2024