TIM: 使用比较方法教授大型语言模型翻译
通过两阶段微调算法,改进了大型语言模型(LLMs)遵循翻译指示的能力,特别是翻译方向信息,从而有效降低了错位翻译比率(平均降低 53.3%),提高了翻译质量(平均增加 5.7 SacreBLEU 和 16.4 BLEURT)。
Mar, 2024
通过使用适配器进行微调,我们可以改善大型语言模型在机器翻译方面的性能,并减少训练参数量,同时保持微调模式的效果,解决了少样本学习和过度生成的问题。
Oct, 2023
通过提出一种新的微调方法,我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA,该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升,并为机器翻译领域的新的训练范式奠定了基础。
Sep, 2023
通过在平行文本上对大型语言模型 (LLM) 进行微调,新的机器翻译范式已被证明能够胜过使用大量平行数据以监督方式训练的专用翻译系统,然而,对于大规模多语言机器翻译,是否需要对少数语言对进行专门的模型微调仍然不清楚。本研究通过对 TOWER 系列语言模型在 132 个来自多语言平行数据 FLORES-200 的翻译任务上进行实证评估,发现翻译微调即使对于零样本语言平均而言也会提高翻译质量,但其影响因所涉及的语言对而异。这些结果呼吁进一步研究以有效实现大规模多语言翻译。
May, 2024
本篇论文通过对一个多语种预训练语言模型 XGLM-7B 进行微调并给出指示进行多语种翻译的实验,展示了预训练语言模型在翻译任务中的较强能力,并发现其翻译能力依赖于对翻译指令的理解和语言之间的对齐,研究结果可启发模型改进。
May, 2023
通过在语言模型中建立语义对齐,该研究提出了一种在英语以外的语言中增强指令调整型大型语言模型(It-LLMs)的方法,通过交叉语言指导和翻译指导演示,提高语义对齐,并在六种不同语言上的多语言问答基准测试中验证其方法的效果。
Aug, 2023
在这项研究中,我们评估了 10 个开源指导式 LLMs 在四个代表性的代码理解和生成任务上的表现,并得出了以下主要发现:首先,在零样本设置下,指导式 LLMs 在代码理解和生成任务上非常有竞争力,有时甚至比特定于每个下游任务进行微调的小型 SOTA 模型表现更好。我们还发现,对于与代码相关的任务,并非总是越大的指导式 LLMs 表现更好。其次,在少样本设置下,我们发现添加演示示例可以大大帮助指导式 LLMs 在大多数代码理解和生成任务中表现得更好;然而,这些例子有时会导致不稳定甚至更差的表现。此外,我们发现广泛使用的基于 BM25 的选样策略在生成问题上明显优于基本随机选样或固定选样。第三,在微调设置下,我们发现与零样本 / 一样本的表现相比,微调可以进一步提高模型在下游代码理解和生成任务中的性能。此外,在在相同下游任务数据集上进行微调后,指导式 LLMs 的性能优于小型 SOTA 模型和未进行指导微调的相似规模 LLMs。根据我们的发现,我们进一步提出了有关模型和使用建议、性能和成本的权衡以及未来方向的实用影响。
Aug, 2023
本文研究发现,相对于使用多个任务的 multitask-prompted fine-tuning 方法进行指导调整的语言模型,仅针对单个任务进行专家模型的 fine-tuning 能够使模型在 11 个不同的未知数据集上以及 13 个 BIG-bench 基准测试数据集上平均准确率分别提高 3.20% 和 1.29%。此外,分别训练每个专家模型而不是单个 MT LM 进行 zero-shot 推断具有许多好处,包括避免负面任务转移,能够持续学习新任务而无需重新训练以避免灾难性遗忘以及显示在合并单个专家时具有组合能力。
Feb, 2023
大语言模型(LLMs)在单个查询中难以遵循一系列指令,从而可能忽略或错误解释其中的一部分,这影响了它们在需要多个中间步骤的复杂问题(例如多语言(翻译然后回答)和多模态(字幕然后回答)任务)中的性能。我们通过使用开源 LLMs(如 LLaMA-2 70B 和 Mixtral-8x7B)进行实证验证。针对当今数据中顺序指令的稀缺性,我们提出了顺序指令调整,这是一种简单而有效的策略,用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务,我们发现,顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。
Mar, 2024