May, 2024

揭示 LLM 生成的对话中的隐蔽伤害和社会威胁

TL;DR评估 LLMs 生成的对话中的隐蔽伤害时发现,七种 LLMs 表现出了一些恶意观点,特别是在涉及到种姓等非西方概念时更为明显,且用一种看似中立的语言表达,容易逃过现有方法的检测。