May, 2024
ALI-Agent: 基于代理评估法评估 LLMs 与人类价值观的一致性
ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation
Jingnan Zheng, Han Wang, An Zhang, Tai D. Nguyen, Jun Sun...
TL;DR基于大型语言模型的评估框架 ALI-Agent 可以自动化生成实际测试场景,评估模型与人类价值观的一致性,并探测出长尾风险。