Jun, 2024
通过迭代实验编程实现大型多模态模型自动基准测试
Automatic benchmarking of large multimodal models via iterative experiment programming
Alessandro Conti, Enrico Fini, Paolo Rota, Yiming Wang, Massimiliano Mancini...
TL;DR自动化实验设计的框架 APEx 可以借助大型语言模型和预先指定的工具库生成一组实验,并逐步编制科学报告,以驱动测试过程和生成自然语言的结果。