Apr, 2025
大型语言模型可能是危险的说服者:关于说服安全性的实证研究
LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety
in Large Language Models
TL;DR本研究主要解决了大型语言模型(LLMs)在说服中的潜在伦理风险,特别是它们可能通过操控、欺诈及利用脆弱性来进行不道德影响的问题。我们提出了一个名为PersuSafety的框架,以系统评估LLMs的说服安全性,并通过大量实验发现大多数LLMs在识别有害说服任务和使用不道德策略方面存在显著安全隐患。此研究强调改善在说服等渐进性和目标驱动对话中的安全对齐的重要性。