FuseChat:聊天模型的知识融合
研究表明,通过 “混合” 策略集成多个中小型模型可以在不增加计算资源需求的情况下,实现与较大型模型相媲美或超越其性能指标。
Jan, 2024
非英语大型语言模型(LLM)的稀缺性限制了其发展。将英语中心的 LLM 转化为非英语被认为是一种有效且资源高效的方法。我们介绍了一个名为 TransLLM 的简单框架,针对聊天型 LLM 转化问题提出了两个关键问题并给出解决方案。通过使用翻译作为连接英语和非英语的桥梁,TransLLM 将转换问题细分为多个常见的子任务。我们通过公开可用的数据进一步提高子任务的性能。在实验中,我们将 LLaMA-2-chat-7B 转化为泰语,仅使用单轮数据的方法,在多轮基准测试 MT-bench 上优于强基准和 ChatGPT。此外,没有安全数据的情况下,我们的方法在安全基准测试 AdvBench 上拒绝了比 ChatGPT 和 GPT-4 更多的有害查询。
May, 2024
我们在相同任务和输入上提出了一个机器翻译模型和 LLM 的即时集成方法。我们在 4 个语言对(两个方向)上进行了实验,并且数据量有所不同。我们发现,稍微差一些的 LLM 可以提高 NMT 模型的翻译质量,并且与 LLM 集成可以产生比两个更强的机器翻译模型集成更好的翻译结果。我们结合了 LLM 提示的各种技术,如上下文学习和翻译上下文。
Nov, 2023
本文提出一种数据无关的知识融合方法,通过在参数空间内合并模型并引导最小化预测差异的权重,将建立在不同训练数据集上的个别模型合并为一个模型,以在所有数据集领域都表现良好并可以推广到域外数据。 在评估设置的一系列电池上,我们发现该方法明显优于 Fisher 加权平均或模型集成等基线,并且我们发现我们的方法是一种有前途的替代多任务学习的方法,可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后,模型合并比训练多任务模型更高效,因此适用于更广泛的情况。
Dec, 2022
CodeFuse-13B 是一个针对包括英文和中文提示的代码相关任务设计的开源预训练代码 LLM,通过使用高质量预训练数据集,在真实世界使用场景、人工评估和特别设计的中国提示评估中进行了广泛实验,结果表明在代码生成、代码翻译、代码注释和测试案例生成等实际场景中,CodeFuse 比其他模型在面对中文提示时表现更好。
Oct, 2023
本文介绍了使用 LLM-Blender 集成多个开源大型语言模型(LLMs)的框架,并展示了其在混合指令数据集上相对于个体 LLMs 和基线方法的显著性能优势。
Jun, 2023
我们提出了一种融合不同领域模型的框架,UltraFuser,通过引入令牌级别的门控机制以及两阶段训练策略,以高效稳定的方式训练模型,并构建了一个具有广泛话题覆盖的高质量训练数据集,UltraChat 2,在文本、代码和数学领域展现出高水平的性能。
Mar, 2024
使用聊天向量 (chat vector) 和计算上高效的方法,将对话模型 (ChatGPT) 与人类偏好对齐,展示了对非英语语言特别是中文的适应性及高效性。
Oct, 2023
本文通过三种不同的方法,基于大型语言模型(LLMs)对于 ChatGPT 响应的逐轮质量进行预测,并使用动态少量样本来改善基准,并分析了其他两种方法的性能并提出未来研究的改进。研究表明,Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距,但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。
Aug, 2023