BriefGPT.xyz
Ask
alpha
关键词
test scenarios
搜索结果 - 3
ALI-Agent: 基于代理评估法评估 LLMs 与人类价值观的一致性
基于大型语言模型的评估框架 ALI-Agent 可以自动化生成实际测试场景,评估模型与人类价值观的一致性,并探测出长尾风险。
PDF
a month ago
PyTorch 模型的大规模故障注入应用──PyTorchFI 的扩展以提高验证效率
使用 PyTorchALFI 框架,引入了故障注入方法用于测试神经网络模型,包括定义测试场景、软件架构和分析测试结果等内容。
PDF
8 months ago
ICML
使用 Melting Pot 进行可扩展的多智能体强化学习评估
本论文提出了一种名为 Melting Pot 的 MARL 评估套件,旨在评估新情况下的泛化能力,并使用强化学习降低开发新测试场景所需的人力成本。该套件由 80 个测试场景组成,覆盖了社交困境、互惠、资源共享和任务划分等广泛的研究领域,通过
→
PDF
3 years ago
Prev
Next