柴平台的AI安全框架
本文提出了建立安全、负责任、适度的对话系统研究范围的新视角,包括 1) 虐待和有毒内容,2) 不公平和歧视,3) 道德和道德问题,4) 误导和隐私信息的风险。此外,从安全问题的曝光和检测的角度,回顾了评估大型模型安全性的主流方法。最后,就正在构建负责任的AI所面临的六大挑战进行了讨论。希望本文能够鼓励更多关于安全对话系统的研究。
Feb, 2023
本研究旨在探讨适当的 moderation 对于提高聊天 AI 系统的用户体验的作用,研究发现恰当的 moderation 不仅不会降低用户的满意程度,反而有可能提高用户留存,是一种有效的系统设计方式。
Apr, 2023
该论文探讨聊天机器人的安全问题,提出了一种基于适当性概念的限制方法,包括技术-话语、社交和道德上的适当性,并提出了聊天机器人要满足的三个要求:立场性,可接受性和价值取向一致性(PAVA),同时建议使用适当性挑战集作为验证方法。
Apr, 2023
提出了可信人工智能的七个技术要求和三个主要支柱的构建方法,并考虑到了系统整个生命周期中的所有过程和角色的可信性。同样,还介绍了通过审核过程提高人工智能系统的责任的概念,以及为了未来社会进步而必须面对的规制辩论。
May, 2023
探讨 ChatGPT 对社交,文化,经济和政治互动的影响,着重于用户参与的重要性,提出了更加透明可信的聊天机器人的发展路线图,包括积极风险评估和用户参与。
Jun, 2023
确保安全关键行业中的质量人机交互(HAII)至关重要,研究工作需要整合术语描述、AI系统的主要角色、影响HAII的因素、样本性能和衡量HAII的方法。此领域的研究存在巨大的空白,研究者和开发者需要明确术语、让用户参与整个AI生命周期,并将HAII在安全关键行业中针对用户和环境进行定制。
Oct, 2023
通过进行基于伦理的审计,该研究评估了8个主要的商业和开源大型语言模型(包括GPT-4)的可解释性和可信度,比较不同模型在道德推理和伦理框架上的规范价值,以探索人工智能与人类的伦理对齐问题。研究结果表明,GPT-4表现出了一个复杂的伦理框架,但同时也显示出对特定文化规范存在明显偏见的规范框架和令人不安的威权主义倾向。
Jan, 2024
人工智能安全性的炒作对于推进社会公益的其他人工智能研究途径产生冲突,因为AI安全性与透明度等社会公益相关概念存在微妙而棘手的关系。此外,AI安全性辩论也可能使一些监管工作朝着不太理想的方向发展,同时给会造成结构性伤害的AI提供一种贴上安全标签的机会。
Mar, 2024
本文针对快速发展的AI技术,尤其是生成式AI背景下人工智能安全这一亟待解决的问题,提出了一个创新的架构框架,从可信的AI、负责任的AI和安全的AI三个视角进行分析与理解。研究通过对当前AI安全领域的文献回顾及实际案例分析,阐明了识别与应对AI安全问题的有效机制和方法,旨在提升公众对数字化转型的信任。
Aug, 2024
本研究针对AI系统中的安全性问题,特别是在协作环境中,提出了三种新的安全架构框架,以增强AI代理的安全协议。通过对不安全用例进行综合评估,发现这些框架能够显著提升AI代理系统的安全性,降低潜在风险,从而为确保AI技术在实际应用中的负责任使用奠定基础。
Sep, 2024