Dec, 2023

利用大型语言模型检测在线发布的公共威胁的效力

TL;DR利用大型语言模型(LLMs)检测在线发布的公共威胁的有效性进行了研究。各种 LLMs 被用于分类帖子为 “威胁” 或 “安全”,结果表明 LLMs 能够有效地增强人类内容审查以帮助缓解新兴的在线风险。