恰当性是您所需的一切！

Apr, 2023

Appropriateness is all you need!

Hendrik Kempt, Alon Lavie, Saskia K. Nagel

TL;DR该论文探讨聊天机器人的安全问题，提出了一种基于适当性概念的限制方法，包括技术 - 话语、社交和道德上的适当性，并提出了聊天机器人要满足的三个要求：立场性，可接受性和价值取向一致性（PAVA），同时建议使用适当性挑战集作为验证方法。

Abstract

The strive to make ai applications "safe" has led to the development of safety-measures as the main or even sole normative requirement of their permissible use. Similar can be attested to the latest version of chatbots<

ai applications safety-normativity chatbots appropriateness challenge sets

发现论文，激发创造

人工智能对话聊天机器人的关键作用

在这项研究中，我们探讨了 ChatGPT 在学术背景下的伦理影响、其局限性和特定用户群体可能的滥用情况，并提出了旨在防止不当使用和促进负责任的 AI 交互的架构解决方案。

Oct, 2023

走向健康人工智能：大型语言模型也需要心理治疗师

本文提出 SafeguardGPT 框架，使用精神疗法纠正聊天机器人中具有潜在危害的行为，使得 AI chatbots 可以学习并适应人类喜好和价值观，以更安全、可靠和道德的方式，促进更加以人为中心和负责任的 AI 的发展。

Apr, 2023

安全，负责和道德对话系统的最新进展：综述

本文提出了建立安全、负责任、适度的对话系统研究范围的新视角，包括 1) 虐待和有毒内容，2) 不公平和歧视，3) 道德和道德问题，4) 误导和隐私信息的风险。此外，从安全问题的曝光和检测的角度，回顾了评估大型模型安全性的主流方法。最后，就正在构建负责任的 AI 所面临的六大挑战进行了讨论。希望本文能够鼓励更多关于安全对话系统的研究。

Feb, 2023

开放领域聊天机器人的政治审慎评估

本研究提出了一种评估聊天机器人政治谨慎性的度量体系，并通过自动和人工评估指标进行政治谨慎性分析，释放了测试集和代码，以促进该领域的研究。

Jun, 2021

ChatGPT 的伦理：关注、挑战和规则

本文探讨了人工智能语言模型 ChatGPT 的伦理问题，重点是偏见和隐私方面的考虑，并提出与 ChatGPT 相关的各方实践准则以促进其伦理使用。

May, 2023

揭示 ChatGPT 的安全、隐私和道德关切

该研究论述了 ChatGPT，这是一个利用主题建模和强化学习生成自然回复的人工智能聊天机器人。通过探索从 GPT-1 到 GPT-4 的升级路径，讨论模型的特点、局限性和潜在应用，该研究旨在揭示将 ChatGPT 融入我们日常生活中可能存在的安全、隐私和伦理问题，并分析这些领域的开放问题，呼吁共同努力确保安全和道德无可争议的大型语言模型的发展。

Jul, 2023

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023

以更安全的对话人工智能作为用户喜爱的来源

本研究旨在探讨适当的 moderation 对于提高聊天 AI 系统的用户体验的作用，研究发现恰当的 moderation 不仅不会降低用户的满意程度，反而有可能提高用户留存，是一种有效的系统设计方式。

Apr, 2023

利用社会意识对比学习改善对话安全性

通过对对话 AI 系统中不安全内容的生成风险进行研究，我们提出了一种双步骤微调过程，利用社交感知的 n 对比损失来集成亲社会行为，并通过使用 Moral Integrity Corpus（MIC）和 ProsocialDialog 等数据集培训一个基础模型，实验证明了我们的方法在生成社交适宜回应方面的有效性。

Feb, 2024

E2E 会话型 AI 安全问题预测：框架和工具

本文讨论了在训练端到端对话 AI 模型时会遇到的关于安全性的困境。提供了一个基于价值观的设计框架，以帮助研究人员在决定何时和如何发布这些模型时做出更合理的决策，并提供了一套工具来帮助他们进行更明智的选择。

Jul, 2021