TaCo: 通过翻译辅助的思维链创造,增强低资源语言在 LLMs 中的跨语言迁移
该研究探索了以成本效益的方法来适应新的低资源语言的事先训练的大型语言模型(LLMs),特别关注爱沙尼亚语。通过利用 Llama 2 模型,我们研究了将跨语言指令调整与额外的单语预训练相结合的影响。我们的结果表明,即使是相对较少的额外单语预训练再加上跨语言指令调整也能显著提高爱沙尼亚语的结果。此外,我们展示了从高质量的英文指令到爱沙尼亚语的跨语言知识转移,从而提高了常识推理和多轮对话能力。我们的最佳模型 extsc {Llammas} 是首个适用于爱沙尼亚语的开源指令跟随 LLM。此外,我们发布了爱沙尼亚的第一个通用任务指令数据集 Alpaca-est。这些贡献标志着发展适用于爱沙尼亚语的开源 LLMs 的初步进展。
Apr, 2024
通过在语言模型中建立语义对齐,该研究提出了一种在英语以外的语言中增强指令调整型大型语言模型(It-LLMs)的方法,通过交叉语言指导和翻译指导演示,提高语义对齐,并在六种不同语言上的多语言问答基准测试中验证其方法的效果。
Aug, 2023
通过使用多语言调优方法研究基础大型语言模型(LLMs)的代价效益,检验了 LLMs 对于单语和多语环境中查询的有效性,并发现多语调优对于 LLMs 在多语环境中的鲁棒性是关键。研究表明,在有限的计算资源情况下,仅使用有限数据集对多语调优模型进行训练,与为每种语言训练单语模型相比具有相同强大的性能。这些发现可作为扩展语言支持的指南,通过使用约束的计算资源进行指令调优。
Sep, 2023
利用跨语言指令微调框架(xCOT)将高资源语言的知识转移至低资源语言,并借助多语言同意加速多语言指令微调,通过跨语言蒸馏进一步促进语言转移,实验证明了 xCOT 在不同语言之间减少差距上的优越性。
Jan, 2024
本文介绍了一项关于增强大型语言模型(LLMs)在机器翻译(MT)任务中翻译能力的研究,提出了一个包括三个阶段的新范 Paradigm,通过使用大量的单语数据进行二次预训练、使用互译文本格式文档进行连续预训练,以及利用和源语言一致的指导来进行监督微调。实验结果表明,我们的方法在翻译能力方面取得了显著的改进,超过了以前的工作,并在参数数量较小的情况下实现了优越的性能。
Mar, 2024
通过两阶段微调算法,改进了大型语言模型(LLMs)遵循翻译指示的能力,特别是翻译方向信息,从而有效降低了错位翻译比率(平均降低 53.3%),提高了翻译质量(平均增加 5.7 SacreBLEU 和 16.4 BLEURT)。
Mar, 2024
研究了三种低资源跨语言方法,并在语境学习和微调下发现通过添加额外的主导语言监督信号,对 LLM 的跨语言转移有所改进;同时,发现将目标语言适应词汇重排可能对 ICL 有益,但随着微调而减弱;最后,继续以一种低资源语言进行预训练可提高其他相关低资源语言的模型性能。
Jun, 2024
本篇论文提出一种新方法名为 CoD,通过使用多语言词典来引出 LLMs 的翻译能力,从而提高大规模语言模型在多语言神经机器翻译中的表现,实验表明,CoD 可使得 ChatGPT 在 FLORES-200 全 devtest 集上英塞语察里洛文翻译的 ChrF++ 分数由 3.08 提高至 42.63,优于为低资源语言提供少量演示的方法。
May, 2023
通过 TransliCo 框架中的 Transliteration Contrastive Modeling (TCM) 对 mPLM 进行精调,通过对其训练数据中的句子及其在统一脚本 (Latn) 中的音译进行对比,确保了不同脚本的统一表示空间,解决了多语言预训练语言模型在跨语言知识学习中面临的脚本障碍,并表现出更好的性能。
Jan, 2024
本篇论文通过对一个多语种预训练语言模型 XGLM-7B 进行微调并给出指示进行多语种翻译的实验,展示了预训练语言模型在翻译任务中的较强能力,并发现其翻译能力依赖于对翻译指令的理解和语言之间的对齐,研究结果可启发模型改进。
May, 2023