任务导向 LLM 系统设计中的可能性暴政：一个范围调查

MMDec, 2023

任务导向 LLM 系统设计中的可能性暴政：一个范围调查

The Tyranny of Possibilities in the Design of Task-Oriented LLM Systems: A Scoping Survey

Dhruv Dhamani, Mary Lou Maher

TL;DR这项调研重点关注任务导向的 LLM 系统的设计空间，通过思考实验对不同的 LLM 系统配置性能进行探索，并对 LLM 增强、提示技术和不确定性估计等设计参数进行讨论，提出了七个猜想以指导未来的研究努力。

Abstract

This scoping survey focuses on our current understanding of the design space for task-oriented llm systems and elaborates on definitions and relationships among the available design parameters. The paper begins b

task-oriented llm systems design space llm augmentation prompting techniques uncertainty estimation

发现论文，激发创造

同时评估 LLMs 中的多个问题：评估 LLM 能力的新范式

当前的 LLM 评估主要通过包含单个问题的提示进行评估。我们提出多问题评估作为研究 LLM 的多问题处理能力的额外方法。我们在这方面进行了系统研究，通过全面考察 4 个相关类型的任务上的 7 个 LLM，这些任务是基于 6 个分类基准构建的。我们发现 LLM 具备良好的多问题解决能力：它们在多问题任务上的表现通常接近或与单问题任务一样好。此外，与常见预期相反，它们在长输入下通常不会出现位置偏差。这使得多问题提示成为一种简单且成本效益高的实用方法。然而，我们的结果还强烈表明 LLM 缺乏真正的理解：在两个索引选择任务中，它们的表现显著不如在多问题任务中，尽管它们在一般情况下确实能够进行索引选择。

Jun, 2024

平衡自治和协调：基于多维度的多智能体架构自主型 LLM 动力的分类

本文提出了一个多维分类法，旨在分析自主的 LLM 驱动的多智能体系统在根据建筑观点的各个方面（如目标驱动的任务管理、智能体组成、多智能体协作和上下文交互）之间如何平衡自主性和对齐的动态相互作用。它还包括一个指定基本建筑概念的领域本体模型。我们的分类法旨在使研究人员、工程师和 AI 从业者能够系统地分析这些日益普遍的 AI 系统所采用的建筑动态和平衡策略。所选择的代表性 LLM 驱动的多智能体系统的探索性分类说明了它的实际效用，并揭示了未来研究和开发的潜力。

Oct, 2023

理解 LLM 智能体的规划：一项调查

将大型语言模型作为自主代理的规划模块，通过提供现有作品的分类和全面分析，讨论了任务分解、计划选择和外部模块等方向在 LLM-Agent 规划中的进展和挑战。

Feb, 2024

TELeR: 用于复杂任务基准测试的 LLM 提示的通用分类

提出了一种通用分类法，以设计具有特定属性的提示来执行广泛的复杂任务，从而解决了使用不同提示类型 / 样式和提示中提供不同程度细节时 LLMs 性能差异的问题，使未来的基准研究能够报告所使用的特定类别的提示，启用对不同研究的有意义的比较，并通过这种分类法建立共同标准，研究人员将能够更准确地得出关于 LLMs 在特定复杂任务上的表现的结论。

May, 2023

计算社会科学任务中的提示设计对结果具有重要影响，但其方式难以预测

手动注释计算社会科学任务的数据成本高昂、耗时且情感压力大。最近的研究表明，零 - shot 设置下，语言模型可以执行此类注释任务，但我们对于提示设计如何影响语言模型的遵从和准确性了解甚少。我们进行了大规模的多提示实验，以测试模型选择（ChatGPT、PaLM2 和 Falcon7b）和提示设计特征（定义包含、输出类型、解释和提示长度）对 LLM 生成注释的遵从和准确性的影响，针对四个计算社会科学任务（毒性、情感、谣言态度和新闻框架）。我们的结果表明，LLM 的遵从和准确性高度依赖于提示。例如，提示使用数值得分而不是标签会降低所有 LLM 的遵从和准确性。整体而言，最佳的提示设置取决于任务，微小的提示更改会导致生成标签分布上的巨大变化。通过显示提示设计对 LLM 生成注释的质量和分布有显著影响，本研究作为研究人员和从业者的警示和实践指南。

Jun, 2024

支持半自主任务学习的语言模型提示改进

本文探讨利用语言模型 (LLMs) 作为知识源，辅助 agent 学习新任务的能力。通过使用构建提示词（或 “暗示”），研究什么样的响应既合理，又可以满足 Agent 任务上下文。研究结果表明，在线 agent 任务学习可以从 LLMs 获取可操作的任务知识。

Sep, 2022

基于大型语言模型的多智能体系统：进展与挑战综述

基于大型语言模型（LLM）的多智能体系统在复杂问题解决和世界模拟中取得了重大进展，我们提供了一份综述，深入讨论了基于 LLM 的多智能体系统的基本方面和挑战。

Jan, 2024

上下文感知多智能体系统研究综述：技术、挑战与未来发展方向

综述了最新的情境感知多智能体系统，包括对情境感知系统和多智能体系统的特性进行了概述，提出了一个将不同领域的方法结合起来的情境感知系统的一般过程，并讨论了情境感知多智能体系统的现有挑战和未来研究方向。

Feb, 2024

LLM 任务干扰：关于任务切换对对话历史的影响的初步研究

通过实验发现，在使用大型语言模型进行对话时，任务切换会导致性能下降。

Feb, 2024

LLMs 是否能配置软件工具

使用大型语言模型来改进软件配置过程，特别是在超参数配置方面，通过识别起始条件和缩小搜索空间，提高效率。在大量实验中发现，LLM 生成的响应的可变性以及基于领域特定关键词的一致行为，揭示了 LLM 在初始化过程和配置优化方面的潜力，但也强调了需要进一步深入研究和实验。

Dec, 2023