我们能教语言模型术语化濒危语言吗？

Jun, 2024

我们能教语言模型术语化濒危语言吗？

Can we teach language models to gloss endangered languages?

Michael Ginn, Mans Hulden, Alexis Palmer

TL;DR利用大型语言模型以及上下文学习的方法实现自动生成线性化标注文本的任务，无需传统训练，减少了研究人员的使用成本。

Abstract

interlinear glossed text (IGT) is a popular format in language documentation projects, where each morpheme is labeled with a descriptive annotation. automating the creation of →

interlinear glossed text automating language models in-context learning supervised systems

发现论文，激发创造

GlossLM：面向低资源的多语言预训练用于语言互译注释

我们编译了最大的现有的跨语言翻译数据语料库，从多个来源收集了超过 450k 个样例，覆盖了 1.8k 种语言，以便进行跨语言转移和跨语言翻译生成的研究。然后，我们对这个语料库的部分内容进行大规模多语言模型预训练，并进一步对特定语言进行微调。我们的模型在分词数据和大型单语数据集上与最先进的方法相比具有竞争力，同时在未分词的文本和小型语料库上的形态准确性方面超过 SOTA 模型高达 6.6％，证明了跨语言转移对于资源稀缺的语言的有效性。

Mar, 2024

Wav2Gloss: 从语音生成词汇顺序排列的文本

语言灭绝、线性标注文本、Wav2Gloss、语音标注和端到端系统的比较和分析以及为未来 IGT 从语音生成的研究奠定基础的基准测试。

Mar, 2024

SIGMORPHON 2023 内语注释共享任务：基线模型

本文描述了 SIGMORPHON 2023 共享任务的基线系统，利用 Transformer 架构并将文本生成视为序列标注任务，旨在自动化语言文献编制过程，以节省注释者的宝贵时间和精力。

Mar, 2023

低资源自动标注的嵌入式翻译

我们研究了在资源稀缺环境中的自动插入式脚注，并通过从插入式脚注文本中提取的嵌入式翻译信息来增强硬式注意神经模型。在使用大型语言模型（具体是 BERT 和 T5）对这些翻译进行编码后，我们引入了一个字符级解码器来生成插入式脚注输出。在 SIGMORPHON 2023 关于插入式脚注的共享任务数据集上，通过这些改进，我们的模型在平均改善了 3.97 个百分点的基础上，超过了现有技术水平。在模拟的极度资源稀缺环境中，我们系统在仅使用 100 个句子进行训练时，平均改善了 9.78 个百分点，超过了普通硬式注意基线。这些结果突显了翻译信息在提升系统性能方面的关键作用，尤其是在处理和解释有限数据源时。我们的研究结果为语言的记载和保护提供了有希望的途径，在共享任务数据集上表明了与现有技术水平相比的显著进展。

Mar, 2024

低文档化语言 NLP 中语言专业知识的意义

本研究指出，利用语言学家的专业知识，IGT 数据可以成功应用于 NLP 项目中，但需要定义任务、语言专业知识和任务评估等步骤，本文以 Gitksan 语 Morphological Reinflection 系统为例详细介绍。

Mar, 2022

雇佣一位语言学家！：通过上下文语言描述学习濒危语言

我们提出 LINGOLLM，一种无需训练的方法，使大型语言模型能够处理在其预训练中几乎不出现的未知语言，从而大大提高了翻译能力。

Feb, 2024

利用自然语言解释提高自然语言推理的上下文学习鲁棒性

通过加上自然语言解释，人工智能模型在各种任务中有了显著提升，但在遇到对抗性输入时，效果下降。本文研究了如何通过加入自然语言解释来提高模型对七个对抗性和具有挑战性的自然语言推理数据集的鲁棒性，并提出了 ChatGPT 的几个人工生成的自然语言解释来产生更多自然语言解释的新方法，表现更好。通过对五种常见的大语言模型进行评估，我们发现 ChatGPT 的几个人工生成的自然语言解释的 X-ICL 方法比 ICL 方法提高了 6% 以上。此外，我们还发现之前能有效提高 ICL 性能的提示选择策略，在鲁棒性评估中并不具有与 X-ICL 范式相称的效果。

Nov, 2023

多语言 LLM 通过对齐更好地进行跨语言上下文学习

本研究分析了在跨语言文本分类中使用 in-context learning 的问题，并提出了一种称为 Cross-lingual In-context Source-Target Alignment (X-InSTA) 的 prompt 构建策略，该策略在 44 个不同的跨语言数据集上表现出了很好的性能。

May, 2023

语言模型利用交叉任务上下文学习解决数据稀缺的新任务

该研究论文探讨了大型语言模型 (LLMs) 是否能够根据不同任务示例的上下文信号来解决新任务，并设计了一个跨任务提示设置，并表明 LLMs 在无需上下文提示的情况下能够获得显著的性能提升，同时展示了模型激活相似性与跨任务示例效果之间的强相关性。

May, 2024

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024