大型语言模型的迭代翻译优化
本篇论文通过对一个多语种预训练语言模型 XGLM-7B 进行微调并给出指示进行多语种翻译的实验,展示了预训练语言模型在翻译任务中的较强能力,并发现其翻译能力依赖于对翻译指令的理解和语言之间的对齐,研究结果可启发模型改进。
May, 2023
提出了一种基于卷积神经网络的翻译方案,它使用关注机制对原句和当前翻译输出进行离散替换预测,可以对先前的错误进行修正,并利用该方案对基于短语的翻译系统进行迭代优化,使其在 WMT15 德语 - 英语翻译中 BLEU 得分提高了 0.4。
Oct, 2016
本文旨在探究如何利用上下文学习的方法来提高实时自适应机器翻译的质量,并研究将强编码器 - 解码器模型和模糊匹配相结合以进一步提高翻译质量的方法。已在五个大不同的语言对上展开了实验。
Jan, 2023
利用大型语言模型的丰富语言知识和强大的推理能力,我们提出了一种新的生成式翻译范式 ——“GenTranslate”,可以从 N 个候选译文中生成更高质量的翻译结果,并且在各种语音和机器翻译基准测试中明显优于现有模型。
Feb, 2024
描述了基于 GPT 的翻译质量评估指标 GEMBA,可以用于有参照的和无参照的情况。研究了四个提示变体,并比较了两种方式下的性能表现,发现只能应用于 GPT 3.5 及以上的模型。在 WMT22 的 Leaderboard 中,GEMBA 在三种语言对中具有先进的性能表现。
Feb, 2023
本研究探讨了将大型语言模型(LLMs)如 GPT-3.5 和 GPT-4 整合到本体修正过程中,特别关注 OntoClean 方法论。研究通过采用两种提示策略的 LLMs,证明了在标注过程中可以获得高准确性,并提出了开发插件软件以促进本体工具整合的潜力。
Mar, 2024
本文介绍了一项关于增强大型语言模型(LLMs)在机器翻译(MT)任务中翻译能力的研究,提出了一个包括三个阶段的新范 Paradigm,通过使用大量的单语数据进行二次预训练、使用互译文本格式文档进行连续预训练,以及利用和源语言一致的指导来进行监督微调。实验结果表明,我们的方法在翻译能力方面取得了显著的改进,超过了以前的工作,并在参数数量较小的情况下实现了优越的性能。
Mar, 2024
本文提出一种新的数据增广技术,利用大规模的语言模型从混合的样本中生成逼真的文本样本,并利用语言模型预测的软标签,从大规模语言模型中蒸馏知识并同时创建文本扰动,我们在多元化的分类任务上进行数据增广实验,并展示了该方法远远优于现有的文本增广方法,消融研究和定性分析提供了更多的见解。
Apr, 2021
通过提出一种新的微调方法,我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA,该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升,并为机器翻译领域的新的训练范式奠定了基础。
Sep, 2023