May, 2024

ALI-Agent: 基于代理评估法评估 LLMs 与人类价值观的一致性

TL;DR基于大型语言模型的评估框架 ALI-Agent 可以自动化生成实际测试场景,评估模型与人类价值观的一致性,并探测出长尾风险。