重新任务:从能力、技能和知识的视角重新审视大型语言模型任务
本研究通过贝叶斯和频率分析结合,从29个LLM的数据中分析出LLMs的能力结构,发现LLMs的能力不是单一的,而是可以被解释为三个能力:推理、理解和核心语言建模,并且这三个能力可以解释模型性能的高比例差异,可以用来指导模型的改进和评测。
Jun, 2023
通过 skills-in-context 提示策略,本研究发现通过演示技能与组合示例在同一提示环境中,能够激发大型语言模型的内在潜力,使其能够解决需要创新技能组合的未见复杂问题,并且能够激活和组合这些内在竞争能力。
Aug, 2023
通过本研究,我们发现指导微调对大型语言模型产生了三个重要影响,包括了对指令识别的加强、对知识存储层次的对齐以及对单词关系学习的促进。这些发现有助于更深入地理解指导微调对大型语言模型行为变化的影响,并为未来解释和优化这些模型以适用于不同应用领域的研究打下了基础。
Sep, 2023
评估LLM在各种任务和数据大小上的优化能力,并引入了三个不同的指标来全面评估任务性能。通过应用这些指标,我们观察到LLM在处理小规模样本时表现出很强的优化能力,但其性能受到数据大小和值等因素的显著影响,强调了对LLM的优化任务领域进行进一步研究的重要性。
Oct, 2023
大型语言模型在各种下游任务中表现出显著性能,而引导工程在优化大型语言模型性能中起着关键作用。本文通过回顾35项代表性研究,突出设计提示的局限性,同时保持一个期待大型语言模型像人类思考的人类化假设。通过引导大型语言模型按照建立的人类逻辑思维,我们展示目标导向的提示形式显著提高了大型语言模型的性能。此外,我们引入了一个新的分类法,将目标导向的提示方法分为五个相互关联的阶段,并通过总结十个可适用任务来展示我们框架的广泛适用性。我们提出了四个未来方向,希望进一步强调和推动目标导向的提示工程。
Jan, 2024
AlphaLLM通过将Monte Carlo Tree Search(MCTS)与LLMs集成,建立了一个自我改进循环,从而提高了LLMs的能力,同时避免了其他额外的注释,实验结果表明AlphaLLM显著提高了LLMs的性能。
Apr, 2024
通过引入层次化提示分类法及其规则以及自适应层次化提示框架,研究衡量大型语言模型在解决多样任务中的效果,进而发展一种用于评估数据集复杂性和语言模型能力的通用评价指标。
Jun, 2024
通过对已有大语言模型进行适应和扩展,我们研究了构建语言专属的大语言模型。我们通过系统实验探究基础模型选择、词汇扩展和持续微调等设计选择对适应后的大语言模型的效率(编码同样数量信息所需的词汇数)和最终任务性能的影响。我们发现,(1)适应前的初始性能并不总是最终性能的指示;(2)大多数研究的大语言模型可以通过简单的词汇扩展和持续微调来提高效率;(3)最佳的适应方法高度依赖于语言,简单的方法在各种实验设置中都表现良好。与适应多语言模型相比,适应以英语为中心的模型在资源稀缺语言上可以取得更好的结果。总之,我们的工作为通过适应现有大语言模型高效构建语言专属大语言模型奠定了基础。
Jun, 2024
本研究解决了大型语言模型(LLMs)在处理超出其知识和能力的查询时常常产生错误或虚假响应的问题。通过系统概念化不可行任务,提供正式定义和分类,开发新的数据集并评估多种LLMs在任务可行性上的表现。本研究的实验结果验证了改进训练方法的有效性,展现了优化LLMs操作边界的潜在方向。
Aug, 2024
本研究针对大型语言模型(LLMs)在特定复杂任务中效率和准确性不足的问题,提出了一种教学LLMs使用外部工具的标准化方法。该论文的主要发现揭示了LLMs如何在理解用户意图和动态调整计划的基础上,克服工具选择和调用时机等挑战,探索了从工具使用者转变为工具创造者的新视角。
Sep, 2024