TaskMatrix.AI：通过连接基础模型和数百万个API完成任务

Mar, 2023

TaskMatrix.AI：通过连接基础模型和数百万个API完成任务

TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs

Yaobo Liang, Chenfei Wu, Ting Song, Wenshan Wu, Yan Xia...

TL;DR本篇论文提出了一种新型的人工智能生态系统，将基础模型与数百万API相连通以实现各种数字和实体任务，该方法主要利用基础模型作为中心系统，将这些API作为子任务解决器，以完成各种任务。

Abstract

artificial intelligence (AI) has made incredible progress recently. On the one hand, advanced foundation models like ChatGPT can offer powerful conversation, in-context learning and code generation abilities on a

发现论文，激发创造

嗨，AI，你能通过与代理人对话解决复杂任务吗？

为了解决模型训练的数据和资源浪费问题，本文提出了一项新的挑战——通过自然语言与现有智能体通信以完成复杂任务。通过设计一个综合性的基准测试——CommaQA，该基准测试包括三项复杂的推理任务，旨在通过与现有的QA智能体进行沟通来解决这些任务。研究表明，传统的黑盒模型在使用现有智能体的知识和金标事实监督时也难以从头开始实现此任务。相比之下，学会与代理通信的模型表现更好，即使没有任何辅助监督和数据，这种通过与现有代理完成复杂任务的学习仍然是非常困难的。本文提供了 CommaQA 基准测试和组合泛化测试集，以推动这方面的研究。

Oct, 2021

HuggingGPT：利用HuggingFace中的ChatGPT及其相关模型解决AI任务

利用大型语言模型作为控制器连接各种人工智能模型的HuggingGPT，可以解决不同领域和模态下的人工智能任务，为人工智能的通用智能迈出了新的一步。

Mar, 2023

OpenAGI: LLM与领域专家的融合

本文介绍了一种建立在大型语言模型基础之上，利用强化学习从任务反馈中提高模型任务解决能力的通用人工智能研究平台OpenAGI，该平台旨在为测试和改进AGI的能力提供任务、数据集、评估指标和可扩展模型。

Apr, 2023

基础模型的工具学习

本文系统地介绍了工具学习在认知起源、模型学习和用户指令等方面的背景，并总结了现有的工具增强和工具导向学习研究，并提出了一个通用的工具学习框架。最后通过17个代表性工具的实验结果展示了基金会模型在熟练使用工具方面的潜力，同时指出了需要进一步研究的几个开放性问题。

Apr, 2023

TaskLAMA: 探究语言模型的复杂任务理解能力

通过使用大型语言模型，我们从高质量的人工标注数据集中提取知识，并引入了新的评估指标，发现结构化复杂任务分解能够有效地将复杂任务分解为个别步骤，相对于基准实验的最大改进幅度为280%，但在预测两两时间依赖性方面仍存在困难。

Aug, 2023

Toolink: 通过开源模型的联动求解链将工具包的创建和使用连接起来

Toolink是一个综合性框架，通过创建工具包，通过chain-of-solving方法实现工具的规划与调用，有效地利用了模型的创造力和chain-of-solving能力，进而提出一个具有先进的工具规划和工具调用能力的开源模型LLaMA-CoS。对多样任务的评估证明LLaMA-CoS的chain-of-solving能力与ChatGPT相媲美，而性能优于chain-of-thought方法，进一步研究突显了LLaMA-CoS对未见过任务的泛化能力，并展示了其在使用针对目标任务的工具包方面的优越性，证实了其在实际场景中的鲁棒性。

Oct, 2023

基于基础模型的通用机器人：调查与元分析

建立具有普适性的通用机器人系统一直是人工智能领域的长期目标。本研究调查了如何将自然语言处理（NLP）和计算机视觉（CV）领域的基础模型应用于机器人领域，并探讨了构建面向机器人的基础模型的可能形式，以及使用基础模型实现通用机器人系统所面临的主要挑战和未来方向。

Dec, 2023

基模型推理综述

发展基础模型的探索性研究目前取得了最新的进展，其涉及推理任务、多模态学习和自主智能代理等未来研究方向，为人工智能的发展做出了贡献。

Dec, 2023

交互式代理基础模型

提出了一种交互式代理基础模型，采用新颖的多任务代理训练范式，实现了跨领域、数据集和任务训练 AI 代理的能力，展示了其在机器人技术、游戏 AI 和医疗保健领域的性能，支持多模态和多任务学习。

Feb, 2024

SemEval-2024任务9：解码脑筋急转弯的有效性——专用模型与ChatGPT的对比

本研究提出了一种专用模型，旨在解决BRAINTEASER任务，这是一个设计用来评估模型通过句子和单词谜题的侧向思维能力的新挑战。我们的模型在测试阶段在解决句子谜题方面表现出卓越的效果，总得分达到0.98。此外，我们探讨了ChatGPT的比较性能，特别分析了温度设置变化对其参与侧向思维和问题解决能力的影响。我们的发现显示了专用模型和ChatGPT之间显著的性能差异，凸显了专门方法在增强人工智能中的创造性推理能力方面的潜力。

Feb, 2024