评估大型语言模型作为人工智能研究代理 agent

Oct, 2023

评估大型语言模型作为人工智能研究代理 agent

Benchmarking Large Language Models As AI Research Agents

Qian Huang, Jian Vora, Percy Liang, Jure Leskovec

TL;DR我们提出了一种基于 LLM 的研究代理的研究，该代理可以在机器学习工程问题中执行实验循环，并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。

Abstract

Scientific experimentation involves an iterative process of creating hypotheses, designing experiments, running experiments, and analyzing the results. Can we build AI research agents to perform these long-horizon tasks? To take a step towards building and evaluating →

research agents machine learning engineering mlagentbench llm-based research agent long-term planning

发现论文，激发创造

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统，对大型语言模型和提示进行了广泛实验，并探索了基线任务规划器的多个改进，预计该基准工具将加快语言导向的任务规划器的发展。

Feb, 2024

基于大语言模型的智能代理的崛起与潜力：一项调查

人工智能代理是一个前景光明的领域，利用大型语言模型作为基础构建通用人工智能代理带来了显著的进展，其在单一代理场景、多代理场景以及人机合作中的广泛应用展示了卓越的潜力，并为人类社会提供了有价值的见解。

Sep, 2023

基于大型语言模型的自主代理的调查

通过对基于大语言模型的自主代理的综合调查，本文提出了一个统一框架来概括以往研究，并总结了在社会科学、自然科学和工程领域中应用大语言模型的人工智能代理的各种应用及评估策略。同时，我们还讨论了该领域的挑战和未来方向。

Aug, 2023

大型语言模型的紧急自主科研能力

本论文展示了一个结合多个大型语言模型的智能代理系统，可自主设计、规划和执行科学实验，并通过三个不同的实例展示代理的科学研究能力，最为复杂的是成功执行加催化交叉偶联反应。最后，讨论了这种系统的安全影响，并提出了防止滥用的措施。

Apr, 2023

ResearchArena：评估 LLMs 作为研究代理的信息收集和组织能力

利用 ResearchArena 测量大型语言模型代理在进行学术调查的能力，将调查流程分为信息发现、信息选择和信息组织三个阶段，在离线环境中评估代理定位支持材料、对定位的论文进行排名和将其组织成层次知识思维导图的能力，根据初步评估发现大型语言模型方法与基于关键词检索技术相比表现不佳，未来研究具有重要发展机会。

Jun, 2024

基于大型语言模型的游戏智能代理调查

利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力，以推进人工智能 (AGI) 的发展，并提供了 LLM 基础的游戏智能体的综述，包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分，调研了六种游戏类型的现有代表性 LLM 基础游戏智能体，并展望了未来的研究和发展方向。

Apr, 2024

通过大型语言模型探索自主代理：一项综述

大型语言模型（LLMs）正在改变人工智能，使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力，有望在从客户服务到医疗保健等各个领域引发革命。然而，它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推理、工具利用和上下文学习等技术正在被探索，以增强它们的功能。像 AgentBench、WebArena 和 ToolLLM 这样的评估平台为在复杂场景中评估这些代理提供了强大的方法。这些进展正在引领更加有韧性和能力的自主代理的发展，预计它们将成为我们数字生活中不可或缺的一部分，协助我们完成从邮件回复到疾病诊断等任务。拥有 LLMs 带头的人工智能的未来充满了希望。

Apr, 2024

ResearchAgent：基于大型语言模型的科学文献上迭代研究创意生成

提出了一种基于大型语言模型的研究思路写作代理 ——ResearchAgent，它在科学文献的基础上自动生成问题、方法和实验设计，并通过连接学术图谱中的信息和从基于实体为中心的知识库中提取的实体进行逐步改进。此外，通过与多个 ReviewingAgents 进行反复讨论和反馈来借鉴人类改善思路的方式，还利用与人类偏好一致的大型语言模型为评估提供标准。在多个学科的科技出版物上实验证明了 ResearchAgent 的有效性，通过人工和模型评估结果生成了新颖、明确和有效的研究思路。

Apr, 2024