Apr, 2025

RealHarm:真实世界语言模型应用失败的集合

TL;DR本研究针对当前语言模型应用中的失败模式缺乏实证研究的现状,提出了RealHarm数据集,系统性地分析了公共报告事件中的问题互动。研究发现,声誉损害是主要的组织危害,而虚假信息则是最常见的风险类别,表明现有的保护系统在防范这些事件方面存在显著不足。