所有语言模型的大小
本研究探讨了大型语言模型在成本高效的推理和微调方面的方法,并比较了本地和分布式策略。我们开发了特殊的容错推理算法和负载平衡协议,用于自动分配设备以最大化系统总吞吐量,并展示了这些算法在 Petals 中的应用,该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。我们通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。
Dec, 2023
利用大型语言模型 (LLM) 的适应性,以提供更好的性能和更强的泛化能力,本文首次研究了将 LLM 应用于网络的可持续设计理念,通过 NetLLM 框架实现了高效的 LLM 适应网络问题,并展示了它在不同网络任务中的有效性。
Feb, 2024
通过创建示例池来代表每种语言模型较可靠回答的上下文类型,并利用经过微调的句子嵌入使上下文相似性接近对话状态相似性,本研究提出了一种新颖的 SLM/LLM 路由框架,旨在提高计算效率并增强任务性能,在对话状态跟踪任务中,相较于仅依赖 LLMs,所提出的路由框架显著提高性能,同时减少计算成本超过 50%。
Nov, 2023
利用大型语言模型(LLM)和移动边缘计算(MEC),我们提出了一种基于 LLM 的离线框架(LAMBO)来解决传统深度离线架构面临的问题,通过四个组成部分实现了高性能决策制定、预训练和在动态环境变化下微调解码器。模拟结果证实了 LAMBO 框架的优势。
Aug, 2023
本论文提出了一种新的方法,利用在线模型选择算法在序列决策中高效地整合 LLM 代理,统计上显著优于传统决策算法和普通 LLM 代理,计算上避免了 LLM 梯度更新的高昂代价,并且在整个决策过程中只需要少量 LLM 调用。
Jun, 2024
我们提出了一种离线学习框架,利用大规模的离线数据(如人类互动日志)来改善大型语言模型的在上下文学习性能。我们通过文本和代码的方法形式化定义了基于大型语言模型的策略,并引入了一种离线数据驱动的发现和精炼框架(O3D),以改善大型语言模型的决策能力。在两个交互式决策基准测试中的实证结果表明,O3D 可以通过离线发现和精炼过程显著提升大型语言模型的决策能力,并在基于文本和代码的策略下持续优于基准模型。
Oct, 2023
MindLLM 是一系列双语轻量级大型语言模型,通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验,并介绍了适用于较小模型的创新指令调整框架,同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。
Oct, 2023
本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化,从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能,却不调整 LMM 参数,结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。
May, 2023
通过使用 LinguGKD 框架,将大型语言模型作为教师模型和图神经网络作为学生模型,通过设计的节点分类提示来调过教师 LLM 的 Hierarchically 学习到的节点特征和学生 GNN 在潜在空间的对齐,并采用层自适应对比学习策略,提高了学生 GNN 的预测准确性和收敛速度,同时提供了更快的推理速度和更少的计算和存储需求。
Feb, 2024
将大型语言模型(LLMs)与图神经网络(GNNs)相结合的互动方式(LLMs-as-Consultants)——LOGIN(LLM Consulted GNN training)框架,在节点分类任务上取得了与复杂设计的先进 GNNs 相媲美的性能,而且其基本 GNN 架构能够实现与强化设计的 GNNs 相当的性能。
May, 2024