TaskMatrix.AI:通过连接基础模型和数百万个API完成任务
为了解决模型训练的数据和资源浪费问题,本文提出了一项新的挑战——通过自然语言与现有智能体通信以完成复杂任务。通过设计一个综合性的基准测试——CommaQA,该基准测试包括三项复杂的推理任务,旨在通过与现有的QA智能体进行沟通来解决这些任务。研究表明,传统的黑盒模型在使用现有智能体的知识和金标事实监督时也难以从头开始实现此任务。相比之下,学会与代理通信的模型表现更好,即使没有任何辅助监督和数据,这种通过与现有代理完成复杂任务的学习仍然是非常困难的。本文提供了 CommaQA 基准测试和组合泛化测试集,以推动这方面的研究。
Oct, 2021
利用大型语言模型作为控制器连接各种人工智能模型的HuggingGPT,可以解决不同领域和模态下的人工智能任务,为人工智能的通用智能迈出了新的一步。
Mar, 2023
本文介绍了一种建立在大型语言模型基础之上,利用强化学习从任务反馈中提高模型任务解决能力的通用人工智能研究平台OpenAGI,该平台旨在为测试和改进AGI的能力提供任务、数据集、评估指标和可扩展模型。
Apr, 2023
本文系统地介绍了工具学习在认知起源、模型学习和用户指令等方面的背景,并总结了现有的工具增强和工具导向学习研究,并提出了一个通用的工具学习框架。最后通过17个代表性工具的实验结果展示了基金会模型在熟练使用工具方面的潜力,同时指出了需要进一步研究的几个开放性问题。
Apr, 2023
通过使用大型语言模型,我们从高质量的人工标注数据集中提取知识,并引入了新的评估指标,发现结构化复杂任务分解能够有效地将复杂任务分解为个别步骤,相对于基准实验的最大改进幅度为280%,但在预测两两时间依赖性方面仍存在困难。
Aug, 2023
Toolink是一个综合性框架,通过创建工具包,通过chain-of-solving方法实现工具的规划与调用,有效地利用了模型的创造力和chain-of-solving能力,进而提出一个具有先进的工具规划和工具调用能力的开源模型LLaMA-CoS。对多样任务的评估证明LLaMA-CoS的chain-of-solving能力与ChatGPT相媲美,而性能优于chain-of-thought方法,进一步研究突显了LLaMA-CoS对未见过任务的泛化能力,并展示了其在使用针对目标任务的工具包方面的优越性,证实了其在实际场景中的鲁棒性。
Oct, 2023
建立具有普适性的通用机器人系统一直是人工智能领域的长期目标。本研究调查了如何将自然语言处理(NLP)和计算机视觉(CV)领域的基础模型应用于机器人领域,并探讨了构建面向机器人的基础模型的可能形式,以及使用基础模型实现通用机器人系统所面临的主要挑战和未来方向。
Dec, 2023
提出了一种交互式代理基础模型,采用新颖的多任务代理训练范式,实现了跨领域、数据集和任务训练 AI 代理的能力,展示了其在机器人技术、游戏 AI 和医疗保健领域的性能,支持多模态和多任务学习。
Feb, 2024
本研究提出了一种专用模型,旨在解决BRAINTEASER任务,这是一个设计用来评估模型通过句子和单词谜题的侧向思维能力的新挑战。我们的模型在测试阶段在解决句子谜题方面表现出卓越的效果,总得分达到0.98。此外,我们探讨了ChatGPT的比较性能,特别分析了温度设置变化对其参与侧向思维和问题解决能力的影响。我们的发现显示了专用模型和ChatGPT之间显著的性能差异,凸显了专门方法在增强人工智能中的创造性推理能力方面的潜力。
Feb, 2024