大型语言模型的知识融合
通过知识融合技术将结构和规模不同的源语言模型(LLM)融合为具有相同结构和大小的目标 LLM,从而实现对聊天 LLM 的融合,该方法在聊天领域中的实验结果表明其在多个尺度上优于其他聊天 LLM 模型,并可达到类似于 Mixtral-8x7B-Instruct 的性能水平。
Feb, 2024
本文提出一种数据无关的知识融合方法,通过在参数空间内合并模型并引导最小化预测差异的权重,将建立在不同训练数据集上的个别模型合并为一个模型,以在所有数据集领域都表现良好并可以推广到域外数据。 在评估设置的一系列电池上,我们发现该方法明显优于 Fisher 加权平均或模型集成等基线,并且我们发现我们的方法是一种有前途的替代多任务学习的方法,可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后,模型合并比训练多任务模型更高效,因此适用于更广泛的情况。
Dec, 2022
融合外部知识到大型语言模型(LLMs)中,以克服其古老且静态参数化记忆所带来的局限性,增强 LLMs 在知识整合方面的能力成为很有前景的解决方案。然而,先前的研究倾向于过度依赖外部知识,低估了 LLMs 内在参数化知识的宝贵贡献。尤其是在外部知识不完整且需要参数化知识补充的情况下,LLMs 在混合外部和参数化知识方面的有效性仍然未被广泛探索。本研究将知识融合拆解成四个不同的场景,并首次对 LLMs 在每个场景下的行为进行了系统研究。我们开发了一个系统化的数据构建和知识注入流程来模拟这些融合场景,从而进行了一系列的对照实验。我们的调查结果表明,增强 LLMs 内部的参数化知识可以显著增强它们的知识整合能力。然而,我们发现在记忆和引出参数化知识以及确定参数化知识边界方面仍然存在挑战。我们的研究结果旨在引导未来对 LLMs 内部外部知识协调的探索。
May, 2024
通过从不同语言中汇集知识,该研究介绍了一种增强大型语言模型在多语言环境下性能的方法。实验证明,该方法显著提升了性能,特别是在减少语言性能差异方面。
Jun, 2024
本研究提出了一种名为 Evolver 的知识融合方法,它可以将不同语言模型的权重进行集成,通过进化算法生成新的模型并与父模型进行评估,达到在不同数据领域通用且性能优越的目的,这种方法与现有模型合并框架无缝集成,为模型增强提供了一种多功能工具。
Jun, 2024
我们在相同任务和输入上提出了一个机器翻译模型和 LLM 的即时集成方法。我们在 4 个语言对(两个方向)上进行了实验,并且数据量有所不同。我们发现,稍微差一些的 LLM 可以提高 NMT 模型的翻译质量,并且与 LLM 集成可以产生比两个更强的机器翻译模型集成更好的翻译结果。我们结合了 LLM 提示的各种技术,如上下文学习和翻译上下文。
Nov, 2023
通过评估六种最先进的大型语言模型在跨语言任务上的表现,本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力,但在更深层次的跨语言知识转移上存在困难,揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法,有效减少了这些差距,甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。
Jun, 2024
本研究通过利用多个大型语言模型的知识,基于测试时间融合方法 PackLLM 解决了 LLM 融合的问题,通过优化确定每个 LLM 的重要性,使输入提示的困惑度最小化,实验证明 PackLLM 在测试时间融合上的表现优于基准方法,可以利用新的 LLM 提高基于学习的融合方法的性能。
Apr, 2024
本文提出了使用知识图谱和大型语言模型的三种框架,分别为增强了的知识图谱、增强了的大型语言模型和协同增强。这三个框架能够互相协作,实现双向推理,提高自然语言处理和人工智能的表现,同时指出未来的研究方向。
Jun, 2023
本文提出了一种创新的用户可控机制,通过在 LLM 训练的微调阶段引入一个代表生成回答中对参考知识忠实程度的数值标签,综合利用 ROUGE 得分、Sentence-BERT 嵌入和 LLM 的自我评估得分来度量词汇重叠度和语义相似度,用户可以操作这一数值标签来控制 LLM 对外部知识的依赖程度,通过广泛的实验验证了该方法的适用性和有效性,强调了增强 LLM 的多功能性同时保持创造性和准确性平衡的潜力。
Jul, 2023