雇佣一位语言学家！：通过上下文语言描述学习濒危语言

Feb, 2024

雇佣一位语言学家！：通过上下文语言描述学习濒危语言

Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions

Kexun Zhang, Yee Man Choi, Zhenqiao Song, Taiqi He, William Yang Wang...

TL;DR我们提出 LINGOLLM，一种无需训练的方法，使大型语言模型能够处理在其预训练中几乎不出现的未知语言，从而大大提高了翻译能力。

Abstract

How can large language models (LLMs) process and translate endangered languages? Many languages lack a large corpus to train a decent LLM; therefore existing LLMs rarely perform well in unseen, endangered languages

large language models endangered languages lingollm linguistic knowledge translation capability

发现论文，激发创造

我们能教语言模型术语化濒危语言吗？

利用大型语言模型以及上下文学习的方法实现自动生成线性化标注文本的任务，无需传统训练，减少了研究人员的使用成本。

Jun, 2024

优质数据到文本生成用于严重资源不足的语言的开箱即用大型语言模型

大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距，但人工评估表明 BLEU 分数相比于英语有所下降，对于评估非任务特定系统其适用性存疑。

Feb, 2024

大型语言模型的即时无预测学习

通过提示方式，使用词典和仅有的 5K 个平行句子， extsc {DiPMT++} 能够将 GPT-4 的性能从 0 提升到 16 BLEU，从而显著改善中文到壮语翻译，并实现 32 BLEU 的壮语到中文翻译，同时在帮助人类翻译完全不熟悉的语言方面具备实用性，有助于语言多样性的保护。

Feb, 2024

使用大语言模型引导多语言语义分析器

使用大型语言模型通过少量提示将英文数据集转化为多种语言，以实现多语言语义解析，并在两个公共数据集上与传统的翻译 - 训练方法进行比较，表明使用 LLM 更有效。

Oct, 2022

全球训练，定制本地化：极简多语翻译应用于濒危语言

针对严重低资源语言，我们使用两种方法以尽可能高的质量翻译跨语言已知的有限文本，结果表明，首先将大型预训练的多语言模型适应到有限的文本领域 / 语言，然后再针对严重低资源语言进行调整表现最好。选择最佳的种子句也可以进一步提高翻译质量，同时将种子句数量降至约 1000 句。

May, 2023

大语言模型的多语言机器翻译：实证结果和分析

本文系统地研究了大型语言模型在多语言机器翻译中的优势和挑战，并在 102 种语言上评估了 XGLM、OPT、BLOOMZ 和 ChatGPT 四种常见模型的性能。在进一步分析中，本文发现大型语言模型在多语言机器翻译中具有一些新的工作方式。

Apr, 2023

优化多语言大型语言模型的语言增强：以韩文为例的案例研究

本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现：扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型，在质量分析中，我们的提出的 Bllossom 模型表现出优异的性能。

Mar, 2024

为濒危语言创建词汇资源

本文旨在探讨为濒危语言生成词汇资源的方法，通过使用公共词网和机器翻译器构建双语词典和多语言词库，奠定了一个基础，尤其适用于缺乏资源的语言。

Aug, 2022

LlamaTurk：为低资源语言适应开源生成型大语言模型

通过对英语为主的生成大语言模型进行调整，以适应资源匮乏的语言，并评估了不同的策略，包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明，持续训练改进了语言理解能力，任务特定微调一般提高了下游任务的性能，但扩展词汇未带来实质性的益处。此外，在适应时，较大的模型通过少样本微调可以提高任务性能，而多语言模型在适应时表现不如单语言模型。

May, 2024

利用具有英语优势的多语言提示，推动低资源语言的 LLMs 民主化

本文提出了一种无监督提示方法，使用高资源语言的合成样本以在低资源语言上进行多语言总结，并且表明该方法在许多低资源语言上胜过有监督的提示。

Jun, 2023