基于错误学习的土著语言翻译

Jul, 2024

Learning-From-Mistakes Prompting for Indigenous Language Translation

You-Cheng Liao, Chen-Jui Yu, Chi-Yi Lin, He-Feng Yun, Yen-Hsiang Wang...

TL;DR通过大型语言模型，本文提出了改进极低资源的土著语翻译的技术，采用了有限数量的平行翻译示例的数据存储，GPT-3.5等LLMs的内在能力以及词级翻译词典。我们利用LLMs和上下文学习技术作为极低资源语言的通用翻译器，基于LLMs的语言编译器假设它们可以内化语法结构以实现准确翻译。我们介绍了三种技术：带检索上下文的KNNPrompting、思维链式提示和来自错误的学习，其中最后一种方法解决了过往错误。评估结果表明，即使有限的文集，当与适当的提示搭配时，LLMs可以有效地翻译极低资源语言。

Abstract

Using large language models, this paper presents techniques to improve extremely low-resourced indigenous language translations. Our approaches are grounded in the use of (1) the presence of a datastore consisting of a limited number of parallel translation examples, (2) the inherent c

发现论文，激发创造

使用大语言模型引导多语言语义分析器

使用大型语言模型通过少量提示将英文数据集转化为多种语言，以实现多语言语义解析，并在两个公共数据集上与传统的翻译-训练方法进行比较，表明使用LLM更有效。

Oct, 2022

基于词典短语级别的大语言模型提示用于机器翻译

本研究通过利用双语词典的先验知识提供提示，提出了一种新的 DiPMT 方法，可以有效解决 LLM 在低资源机器翻译和领域转移情况下难以翻译生僻词的问题，并且实验结果表明 DiPMT 能够提高 LLM 的翻译性能。

Feb, 2023

链式词典提示诱发大型语言模型翻译

本篇论文提出一种新方法名为CoD，通过使用多语言词典来引出LLMs的翻译能力，从而提高大规模语言模型在多语言神经机器翻译中的表现，实验表明，CoD可使得ChatGPT在FLORES-200全devtest集上英塞语察里洛文翻译的ChrF++分数由3.08提高至42.63，优于为低资源语言提供少量演示的方法。

May, 2023

利用具有英语优势的多语言提示，推动低资源语言的LLMs民主化

本文提出了一种无监督提示方法，使用高资源语言的合成样本以在低资源语言上进行多语言总结，并且表明该方法在许多低资源语言上胜过有监督的提示。

Jun, 2023

大语言模型的机器翻译：波斯语，英语和俄语方向的提示工程

通过研究生成式大型语言模型在机器翻译中的性能，我们发现多语言模型（如PaLM）在人工翻译输出方面表现出类似人类的水平，能够根据样式指南和语言要求优化所需的翻译细微差别，并在处理和应用提示上表现出色。我们还针对流行的语言模型作为机器翻译工具的错误和限制进行了分类和提出了设计提示进行上下文学习的方法。通过改进评估指标的准确性和可靠性，我们的研究旨在促进生成式大型语言模型在机器翻译中的进步。

Jan, 2024

低资源语言中大型语言模型的少样本跨语言迁移

将LLaMa适应于Kinyarwanda、Hausa和Luganda等低资源语言的提示设置是一种计算高效且成本效益的方法，优于翻译和LAFT，并在所有任务和语言上表现最佳。

Mar, 2024

构建准确的基于翻译的语言感知 LLMS 的指导调优

通过两阶段微调算法，改进了大型语言模型（LLMs）遵循翻译指示的能力，特别是翻译方向信息，从而有效降低了错位翻译比率（平均降低53.3%），提高了翻译质量（平均增加5.7 SacreBLEU和16.4 BLEURT）。

Mar, 2024

基于检索增强的语言模型提示的低资源机器翻译研究：以马姆贝语为例

本文旨在探索使用大型语言模型（LLMs）将英文翻译成蒙巴依语，一种在东帝汶使用的语言，本研究使用少量数据对LLM进行指导，以提高低资源语言的机器翻译质量。

Apr, 2024

LLM在低资源翻译中的缺陷：检索和理解均为问题

本研究通过一系列实验翻译南安第斯克丘亚语为西班牙语，探究预训练大型语言模型在自动化机器翻译中从低资源语言到高资源语言的上下文学习能力。实验结果表明，即使是相对较小的语言模型，在提供了足够相关语言信息的情况下，能够通过提示上下文实现零样本低资源翻译。然而，提示类型、检索方法、模型类型和语言特定因素的不确定效果突显了即使是最佳的语言模型也存在于世界上7000多种语言及其使用者的翻译系统中的限制。

Jun, 2024

质量还是数量？在低资源翻译中适应大型语言模型的数据规模和多样性

本文探讨了将大型语言模型（LLMs）适应低资源翻译所需的条件，重点分析了平行数据的重要性和监督微调中的多样性对性能的影响。研究发现，平行数据在预训练和微调过程中对低资源LLM-MT至关重要，而多样性往往导致干扰而非迁移。这些发现具有普遍性，对提升低资源语言的多语种LLM-MT模型具有重要价值。

Aug, 2024