May, 2024

超越静态 AI 评估:推进人机交互评估对 LLM 的伤害和风险

TL;DRAI 系统的安全性、风险和社会影响的理解,以及人工智能与人类交互的模型评估,是本文的主题。我们讨论并实施了一种新兴评估方法 ——“人机交互评估”,将其运用于安全评估的有效性、直接人类影响和特定交互的危害,以及指导未来模型社会影响的评估。通过一个包含人 - LLM 交互分类的安全焦点的 HIE 设计框架,我们将其应用于两个潜在的过度依赖和说服风险评估,并提出对于 HIE 成本、可复制性和不代表性的担忧的切实建议。