任务导向 LLM 系统设计中的可能性暴政:一个范围调查
当前的 LLM 评估主要通过包含单个问题的提示进行评估。我们提出多问题评估作为研究 LLM 的多问题处理能力的额外方法。我们在这方面进行了系统研究,通过全面考察 4 个相关类型的任务上的 7 个 LLM,这些任务是基于 6 个分类基准构建的。我们发现 LLM 具备良好的多问题解决能力:它们在多问题任务上的表现通常接近或与单问题任务一样好。此外,与常见预期相反,它们在长输入下通常不会出现位置偏差。这使得多问题提示成为一种简单且成本效益高的实用方法。然而,我们的结果还强烈表明 LLM 缺乏真正的理解:在两个索引选择任务中,它们的表现显著不如在多问题任务中,尽管它们在一般情况下确实能够进行索引选择。
Jun, 2024
本文提出了一个多维分类法,旨在分析自主的 LLM 驱动的多智能体系统在根据建筑观点的各个方面(如目标驱动的任务管理、智能体组成、多智能体协作和上下文交互)之间如何平衡自主性和对齐的动态相互作用。它还包括一个指定基本建筑概念的领域本体模型。我们的分类法旨在使研究人员、工程师和 AI 从业者能够系统地分析这些日益普遍的 AI 系统所采用的建筑动态和平衡策略。所选择的代表性 LLM 驱动的多智能体系统的探索性分类说明了它的实际效用,并揭示了未来研究和开发的潜力。
Oct, 2023
将大型语言模型作为自主代理的规划模块,通过提供现有作品的分类和全面分析,讨论了任务分解、计划选择和外部模块等方向在 LLM-Agent 规划中的进展和挑战。
Feb, 2024
提出了一种通用分类法,以设计具有特定属性的提示来执行广泛的复杂任务,从而解决了使用不同提示类型 / 样式和提示中提供不同程度细节时 LLMs 性能差异的问题,使未来的基准研究能够报告所使用的特定类别的提示,启用对不同研究的有意义的比较,并通过这种分类法建立共同标准,研究人员将能够更准确地得出关于 LLMs 在特定复杂任务上的表现的结论。
May, 2023
手动注释计算社会科学任务的数据成本高昂、耗时且情感压力大。最近的研究表明,零 - shot 设置下,语言模型可以执行此类注释任务,但我们对于提示设计如何影响语言模型的遵从和准确性了解甚少。我们进行了大规模的多提示实验,以测试模型选择(ChatGPT、PaLM2 和 Falcon7b)和提示设计特征(定义包含、输出类型、解释和提示长度)对 LLM 生成注释的遵从和准确性的影响,针对四个计算社会科学任务(毒性、情感、谣言态度和新闻框架)。我们的结果表明,LLM 的遵从和准确性高度依赖于提示。例如,提示使用数值得分而不是标签会降低所有 LLM 的遵从和准确性。整体而言,最佳的提示设置取决于任务,微小的提示更改会导致生成标签分布上的巨大变化。通过显示提示设计对 LLM 生成注释的质量和分布有显著影响,本研究作为研究人员和从业者的警示和实践指南。
Jun, 2024
本文探讨利用语言模型 (LLMs) 作为知识源,辅助 agent 学习新任务的能力。通过使用构建提示词(或 “暗示”),研究什么样的响应既合理,又可以满足 Agent 任务上下文。研究结果表明,在线 agent 任务学习可以从 LLMs 获取可操作的任务知识。
Sep, 2022
基于大型语言模型(LLM)的多智能体系统在复杂问题解决和世界模拟中取得了重大进展,我们提供了一份综述,深入讨论了基于 LLM 的多智能体系统的基本方面和挑战。
Jan, 2024
综述了最新的情境感知多智能体系统,包括对情境感知系统和多智能体系统的特性进行了概述,提出了一个将不同领域的方法结合起来的情境感知系统的一般过程,并讨论了情境感知多智能体系统的现有挑战和未来研究方向。
Feb, 2024
使用大型语言模型来改进软件配置过程,特别是在超参数配置方面,通过识别起始条件和缩小搜索空间,提高效率。在大量实验中发现,LLM 生成的响应的可变性以及基于领域特定关键词的一致行为,揭示了 LLM 在初始化过程和配置优化方面的潜力,但也强调了需要进一步深入研究和实验。
Dec, 2023