词典中心的数据收集用于基于 LLM 的机器翻译
我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略,该方法在 14 种语言中(28 个英语 <->X 对)的实验中展示了性能的一致提升。
Feb, 2024
利用机器翻译从英语训练 LLMs 在低资源语言中通常会带来翻译的挑战,然而我们研究了机器翻译和合成数据在训练语言模型中的作用,并通过案例研究展示了改进的效果。
May, 2024
通过引入针对 Indic LLMs 开发的广泛资源套件,包括 22 种语言,总共有 251 亿词汇和 7480 万指令 - 响应对,我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据,建立了一个干净的开源流水线,用于从各种来源收集预训练数据,并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题,并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发,还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分,创建的数据和其他文物都以宽松的许可证发布。
Mar, 2024
使用大型语言模型通过少量提示将英文数据集转化为多种语言,以实现多语言语义解析,并在两个公共数据集上与传统的翻译 - 训练方法进行比较,表明使用 LLM 更有效。
Oct, 2022
本文探讨使用双语词汇表在网络爬取的文本训练数据上进行无监督机器翻译的有效性,通过词汇数据增强,我们证明了其对于提升无监督翻译成果的重要性,并开源了 GATITOS,这是一个在 26 种低资源语言中表现最好的多语种词汇表。
Mar, 2023
通过利用大型语言模型,我们研究了在机器翻译中解决语义歧义的能力,并提出了两种改进方法,通过上下文学习和在精心策划的歧义数据集上的微调,我们的方法在五种语言方向中有四种能够匹敌或胜过 DeepL 和 NLLB 等最先进的系统,为将大型语言模型有效地用于歧义消解的机器翻译提供了有价值的见解。
Sep, 2023
本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力,通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集,确定了该方法的有效性,并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明,使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀,ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好,但在某些情况下,它们的效益会下降。
May, 2023
通过提出一种新的微调方法,我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA,该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升,并为机器翻译领域的新的训练范式奠定了基础。
Sep, 2023
通过整合任务特定数据集和生成数据集,我们改进了 LLaMA-2-Amharic 模型,提高了其对阿姆哈拉语的语言模型性能,并公开了我们的数据集创建流程、指导性数据集、训练模型和评估结果,以促进针对特定语言的研究。
Feb, 2024
本文介绍了一项关于增强大型语言模型(LLMs)在机器翻译(MT)任务中翻译能力的研究,提出了一个包括三个阶段的新范 Paradigm,通过使用大量的单语数据进行二次预训练、使用互译文本格式文档进行连续预训练,以及利用和源语言一致的指导来进行监督微调。实验结果表明,我们的方法在翻译能力方面取得了显著的改进,超过了以前的工作,并在参数数量较小的情况下实现了优越的性能。
Mar, 2024