Instruct-Align:基于对齐的跨语言教学,教授 LLMs 的新语言
该研究引入对比对齐指令(AlignInstruct)来解决机器翻译在大型语言模型上的两个挑战,即将支持的语言扩展到之前未曾见过的语言和低资源语言中数据匮乏问题。通过机器翻译指令(MTInstruct)对模型进行微调是解决第一个挑战的一种简单方法。然而,MTInstruct 受第二个挑战中固有的弱跨语言信号的限制。AlignInstruct 强调通过使用统计词对齐构建的跨语言鉴别器进行跨语言监督。研究结果表明,对 BLOOMZ 模型(1b1,3b 和 7b1)在多达 24 种未见过的语言上进行微调,得出以下结论:(1)LLM 可以有效地使用 MTInstruct 对未见过的语言进行翻译;(2)AlignInstruct 在涉及英语的 48 个翻译方向上改进了翻译质量的一致性;(3)基于鉴别器的指令表现优于其生成的对等物作为跨语言指令;(4)AlignInstruct 在 30 个零翻译方向上改善了性能。
Jan, 2024
通过在语言模型中建立语义对齐,该研究提出了一种在英语以外的语言中增强指令调整型大型语言模型(It-LLMs)的方法,通过交叉语言指导和翻译指导演示,提高语义对齐,并在六种不同语言上的多语言问答基准测试中验证其方法的效果。
Aug, 2023
通过跨语言知识对齐(cross-lingual knowledge alignment)的绩效(Performance)、一致性(Consistency)和传导度(Conductivity)来评估大型语言模型(LLMs)中多语言预训练和指令调整的影响,结果表明,尽管多语言预训练和指令调整对跨语言知识对齐有益,但训练策略需谨慎设计,整体来看,所有测试的 LLMs 的跨语言知识传导度仍不理想,多语言预训练和指令调整都无法大幅提高跨语言知识的传导度。
Apr, 2024
通过两阶段微调算法,改进了大型语言模型(LLMs)遵循翻译指示的能力,特别是翻译方向信息,从而有效降低了错位翻译比率(平均降低 53.3%),提高了翻译质量(平均增加 5.7 SacreBLEU 和 16.4 BLEURT)。
Mar, 2024
指导调优对大型语言模型(LLMs)进行调优的普遍方法,能够使其生成更接近自然语言查询的人类响应的输出,在许多情况下在各种测试中实现人类水平的性能。然而,指导调优是否真正使 LLMs 更加与人类处理语言的方式相似仍不清楚。我们通过两种方式研究指导调优对 LLM-human 相似性的影响:(1) 大脑对齐,即 LLM 内部表示与人类语言系统的神经活动相似度,(2) 行为对齐,即 LLM 和人类在阅读任务上的行为相似度。我们评估了 25 个原始版本和经过指导调优的 LLMs 在涉及人类阅读自然故事和句子的三个数据集上的表现。我们发现指导调优通常使大脑对齐提高了平均 6%,但对行为对齐没有类似效果。为了确定影响 LLM-brain 对齐的因素,我们计算了 LLMs 的大脑对齐与各种模型特性之间的相关性,如模型大小、各种问题解决能力和需要跨各种领域的世界知识的任务的性能。值得注意的是,我们发现大脑对齐和模型大小(r = 0.95)以及需要世界知识的任务的表现(r = 0.81)之间存在强正相关。我们的结果表明,指导调优 LLMs 可以改善世界知识表示和大脑对齐,这表明在 LLMs 中编码世界知识的机制也可以改善与人类大脑的表征对齐。
Dec, 2023
通过对多种印欧语言中的大规模语言模型进行多语言指令调整数据集上的广泛研究,我们发现使用平行指令调整数据集相比单语数据集能提高跨语言指令遵循能力,还发现大规模指令调整数据集对于多语言 7B 参数模型至关重要,并进行人工注释研究以理解多语言聊天场景中基于人类和 GPT-4 的评价之间的对齐情况。
Feb, 2024
通过使用 CrossIn 方法,利用跨语言指导调整数据的混合构成,我们有效地提升了大语言模型在多语种任务和多语言能力上的表现,并对跨语言数据量和翻译数据的整合对提高多语言一致性和准确性的影响进行了广泛探讨。
Apr, 2024
大语言模型(LLMs)在单个查询中难以遵循一系列指令,从而可能忽略或错误解释其中的一部分,这影响了它们在需要多个中间步骤的复杂问题(例如多语言(翻译然后回答)和多模态(字幕然后回答)任务)中的性能。我们通过使用开源 LLMs(如 LLaMA-2 70B 和 Mixtral-8x7B)进行实证验证。针对当今数据中顺序指令的稀缺性,我们提出了顺序指令调整,这是一种简单而有效的策略,用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务,我们发现,顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。
Mar, 2024