Jul, 2024

AutoBencher:为语言模型创建突出、新颖、困难的数据集

TL;DR通过AutoBencher自动搜索数据集,我们创造了用于数学、多语言和知识密集型问答的数据集,这些数据集平均比现有的基准测试更新颖和更困难。同时,我们发现现有基准测试无法捕捉到语言模型中特定的知识缺口,如Gemini Pro在关于二叠纪灭绝和福特主义的问答方面表现较差,而OpenAGI-7B在关于COVID-19的问答方面表现出人意料的好。