Jan, 2024

评估语言模型代理的方法与谈判

TL;DR通过协商游戏来共同评估语言模型的性能和对齐情况,发现开源模型目前无法完成这些任务,合作协商游戏具有挑战性,最强大的模型并非总是 “赢家”。