BriefGPT.xyz
Ask
alpha
关键词
alignment assessment
搜索结果 - 1
ALI-Agent: 基于代理评估法评估 LLMs 与人类价值观的一致性
基于大型语言模型的评估框架 ALI-Agent 可以自动化生成实际测试场景,评估模型与人类价值观的一致性,并探测出长尾风险。
PDF
a month ago
Prev
Next