柴平台的AI安全框架

Jun, 2023

The Chai Platform's AI Safety Framework

Xiaoding Lu, Aleksey Korshuk, Zongyi Liu, William Beauchamp

TL;DR本文将集成的人工智能（AI）安全原则纳入 Chai 中，以优先考虑用户安全、数据保护和道德技术使用，特别探讨了 AI 安全研究的多维领域，在 Chai 的对话聊天机器人平台中进行了应用，并提出了 Chai 的 AI 安全原则，并提出安全框架：内容保障; 稳定和强大性; 和操作透明度和可追溯性，成功实施了安全AI框架，表明了在AI技术的可持续和道德使用方面缓解潜在风险的实用性。

Abstract

chai empowers users to create and interact with customized chatbots, offering unique and engaging experiences. Despite the exciting prospects, the work recognizes the inherent challenges of a commitment to modern safety standards. Therefore, this paper presents the integrated

发现论文，激发创造

安全，负责和道德对话系统的最新进展：综述

本文提出了建立安全、负责任、适度的对话系统研究范围的新视角，包括 1) 虐待和有毒内容，2) 不公平和歧视，3) 道德和道德问题，4) 误导和隐私信息的风险。此外，从安全问题的曝光和检测的角度，回顾了评估大型模型安全性的主流方法。最后，就正在构建负责任的AI所面临的六大挑战进行了讨论。希望本文能够鼓励更多关于安全对话系统的研究。

Feb, 2023

以更安全的对话人工智能作为用户喜爱的来源

本研究旨在探讨适当的 moderation 对于提高聊天 AI 系统的用户体验的作用，研究发现恰当的 moderation 不仅不会降低用户的满意程度，反而有可能提高用户留存，是一种有效的系统设计方式。

Apr, 2023

恰当性是您所需的一切！

该论文探讨聊天机器人的安全问题，提出了一种基于适当性概念的限制方法，包括技术-话语、社交和道德上的适当性，并提出了聊天机器人要满足的三个要求：立场性，可接受性和价值取向一致性（PAVA），同时建议使用适当性挑战集作为验证方法。

Apr, 2023

建立值得信赖的人工智能的关键：从AI原则，伦理，关键要求到负责任的AI系统和监管中去连接关系

提出了可信人工智能的七个技术要求和三个主要支柱的构建方法，并考虑到了系统整个生命周期中的所有过程和角色的可信性。同样，还介绍了通过审核过程提高人工智能系统的责任的概念，以及为了未来社会进步而必须面对的规制辩论。

May, 2023

欺骗性人工智能生态系统：以ChatGPT为例

探讨 ChatGPT 对社交，文化，经济和政治互动的影响，着重于用户参与的重要性，提出了更加透明可信的聊天机器人的发展路线图，包括积极风险评估和用户参与。

Jun, 2023

安全关键行业中的人工智能与人类互动研究：一个系统文献综述

确保安全关键行业中的质量人机交互（HAII）至关重要，研究工作需要整合术语描述、AI系统的主要角色、影响HAII的因素、样本性能和衡量HAII的方法。此领域的研究存在巨大的空白，研究者和开发者需要明确术语、让用户参与整个AI生命周期，并将HAII在安全关键行业中针对用户和环境进行定制。

Oct, 2023

知情人工智能监管：通过伦理审核比较领先的LLM聊天机器人的伦理框架，评估道德推理和规范价值

通过进行基于伦理的审计，该研究评估了8个主要的商业和开源大型语言模型（包括GPT-4）的可解释性和可信度，比较不同模型在道德推理和伦理框架上的规范价值，以探索人工智能与人类的伦理对齐问题。研究结果表明，GPT-4表现出了一个复杂的伦理框架，但同时也显示出对特定文化规范存在明显偏见的规范框架和令人不安的威权主义倾向。

Jan, 2024

AI安全：必要，但不足且可能存在问题

人工智能安全性的炒作对于推进社会公益的其他人工智能研究途径产生冲突，因为AI安全性与透明度等社会公益相关概念存在微妙而棘手的关系。此外，AI安全性辩论也可能使一些监管工作朝着不太理想的方向发展，同时给会造成结构性伤害的AI提供一种贴上安全标签的机会。

Mar, 2024

可信、负责任和安全的人工智能：一个全面的人工智能安全架构框架及其挑战与应对

本文针对快速发展的AI技术，尤其是生成式AI背景下人工智能安全这一亟待解决的问题，提出了一个创新的架构框架，从可信的AI、负责任的AI和安全的AI三个视角进行分析与理解。研究通过对当前AI安全领域的文献回顾及实际案例分析，阐明了识别与应对AI安全问题的有效机制和方法，旨在提升公众对数字化转型的信任。

Aug, 2024

保护AI代理：开发和分析安全架构

本研究针对AI系统中的安全性问题，特别是在协作环境中，提出了三种新的安全架构框架，以增强AI代理的安全协议。通过对不安全用例进行综合评估，发现这些框架能够显著提升AI代理系统的安全性，降低潜在风险，从而为确保AI技术在实际应用中的负责任使用奠定基础。

Sep, 2024