BriefGPT.xyz
Ask
alpha
关键词
long-tail risks
搜索结果 - 2
ALI-Agent: 基于代理评估法评估 LLMs 与人类价值观的一致性
基于大型语言模型的评估框架 ALI-Agent 可以自动化生成实际测试场景,评估模型与人类价值观的一致性,并探测出长尾风险。
PDF
a month ago
AI 研究的 X 风险分析
当前人工智能技术缺乏管理长尾风险的系统性讨论,而过多提升其智能和能力可能导致比人类更强大的系统从而带来生存威胁;本文提供了分析人工智能灾难性风险的指南包括如何在今天保持系统的安全、在未来影响人工智能系统安全的策略以及平衡安全和通用性的方法。
PDF
2 years ago
Prev
Next