Oct, 2023

评估大型语言模型作为人工智能研究代理 agent

TL;DR我们提出了一种基于 LLM 的研究代理的研究,该代理可以在机器学习工程问题中执行实验循环,并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。