ExpNote: 无需明确任务定义的黑盒大语言模型在经验笔记本的引导下能够更好解决问题
最近,大型语言模型的不断进展引发了任务自动化的火花,其将用户指令描述的复杂任务分解为子任务,并调用外部工具执行它们,在自主代理中起着核心作用。然而,缺乏一个系统的和标准化的基准来促进 LLM 在任务自动化中的发展。为此,我们引入了 TaskBench 来评估 LLM 在任务自动化中的能力。具体而言,任务自动化可以分为三个关键阶段:任务分解,工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集,我们引入了工具图的概念来表示用户意图中的分解任务,并采用反指导方法来模拟用户指令和注释。此外,我们提出了 TaskEval 来从任务分解、工具调用和参数预测等不同方面评估 LLM 的能力。实验结果表明,TaskBench 能够有效地反映 LLM 在任务自动化中的能力。借助自动化数据构建和人工验证的综合,TaskBench 相对于人工评估具有高一致性,可以作为 LLM-based 自主代理的全面而可靠的基准。
Nov, 2023
通过使用嵌入式算法来扩展预训练语言模型的能力,作者提出了一种证据支持的问答方法来展示这种方法的优势,相比于传统的 fine-tuning 方法,该方法获得了 6.4%的改进。
May, 2023
通过 LLMRec,我们对各种推荐任务对多个常用的 LLM 模型进行了基准测试,发现 LLM 模型在准确性任务中表现中等,但在可解释性任务中与最先进的方法相比具有相当的性能,并通过定性评估进一步验证了生成内容的质量和合理性。
Aug, 2023
本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化,从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能,却不调整 LMM 参数,结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。
May, 2023
利用预训练的大型语言模型 (LLM) 对经典的监督机器学习方法进行增强,以应对分类问题,并提出了几种将 LLM 集成到经典机器学习估计器中的方法,从而进一步提高预测性能。通过标准的有监督学习二分类任务和数据分布发生变化的迁移学习任务,对所提出的方法进行了性能评估。通过对四个公开的数据集进行数值实验,结果表明利用 LLM 增强经典机器学习估计器可以显著提升预测性能。
May, 2024
在本研究中,我们展示了一个小型开源语言模型(LLMs)可以有效地从门诊患者 - 医生对话中生成高质量的临床笔记,通过包括持续预训练、监督微调和强化学习在内的综合的领域和任务特定的自适应过程。我们通过增强方法 DistillDirect,以 Gemini Pro 作为教师模型,在策略上进行了强化学习。我们的研究证明了训练较小、开源的 LLMs 以辅助临床文档编写的潜力和可行性,充分利用医疗机构对患者记录和领域专业知识的访问。
Apr, 2024
本文提出了一种统一的数据创建流程,只需一个格式示例,适用于包括传统上问题较多的任务在内的广泛范围,通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好(高达 17.5%),同时在分布内任务上保持可比较的性能,这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。
Oct, 2023
研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性,并提出一种基于模型预测得分差异的采样策略来重新训练模型,证明在分类和排名任务中取得了显著的精度提高。
Jun, 2023
该研究探讨了个性化调整和零 - shot 推理方法在主观任务上的应用,结果表明,与非个性化模型相比,个性化调整能够提高模型的推理能力,并在不同的大语言模型架构上实现了对情感识别和仇恨言论检测等数据集的一致性性能提升,这些发现凸显了个性化对于增强大语言模型在主观文本感知任务中的重要性。
Feb, 2024
这篇论文介绍了一种名为 Smart Expert System 的创新方法,利用大型语言模型作为文本分类器,简化了传统的文本分类工作流程,通过评估多个大型语言模型、机器学习算法和神经网络结构在四个数据集上的性能,证明了某些大型语言模型在情感分析、垃圾短信检测和多标签分类方面超过了传统方法,并且通过少样本学习和微调策略进一步提高了系统的性能,使得微调模型在所有数据集中表现最佳。
May, 2024