低资源语言建模中上下文的重要性

May, 2022

低资源语言建模中上下文的重要性

The Importance of Context in Very Low Resource Language Modeling

Lukas Edman, Antonio Toral, Gertjan van Noord

TL;DR研究了低资源语言模型预训练，当可用的句子少于 100,000 条时。在低资源情况下，统计 n-gram 语言模型优于最先进的神经模型，主要是因为前者专注于局部上下文。因此，引入了三种方法来提高神经模型在低资源环境下的性能，发现限制模型的自我注意力是最有效的方法，在英语、印地语和土耳其语等多种语言的下游任务中，NLI 和 POS 标记的准确性提高了高达 5%。

Abstract

This paper investigates very low resource language model pretraining, when less than 100 thousand sentences are available. We find that, in very low resource scenarios, statistical n-gram language models outperform state-of-the-art →

low-resource language model n-gram language models neural models self-attention downstream tasks

发现论文，激发创造

低资源场景下自然语言处理的最近方法综述

本文调查了低资源自然语言处理的相关方法，其中包括数据增强、遥感监视和迁移学习等技术以帮助在需要训练数据较少的情况下提高神经模型的性能，并通过说明这些方法的差异帮助选择适合特定低资源设置的技术。

Oct, 2020

利用预训练语言模型进行低资源摘要

利用自注意力变换器模型（mBERT, mT5）以及构建新的基准数据集（76.5k 的文章摘要对），在资源有限的语言乌尔都语中，提出了一个自适应低资源摘要方法，能够有效地捕捉低资源语言的上下文信息并取得与英文高资源语言中最先进模型相媲美的评估结果。

Oct, 2023

极度低资源语言的计算视角：何谓太低？

本研究旨在探究注意力深度学习在资源稀缺语言 —— 苏美尔楔形文字中的应用挑战，并介绍了第一个跨语言信息抽取方法，其中包括词性标注、实体识别和机器翻译。同时，开发了一个用于低资源自然语言处理的解释性工具，并重点评估人工干预。我们的方法适用于其他语言，并公开了所有软件、模型和数据集。

May, 2021

近在眼前，远在天边：神经语言模型如何利用上下文

本研究通过切片研究分析，探讨了神经语言模型如何利用其先前的语境。结果显示，模型能有效地利用大约 200 个标记的语境，但对远古语境的词序并不敏感，而是将其建模为一个粗糙的语义领域或主题，同时这项研究还为基于缓存的模型的最近的成功提供了启示。

May, 2018

南非语言低资源语言建模

本文通过研究对南非低资源语言的开放词汇语言模型的表现来评估不同变种的 N 元模型、前馈神经网络、循环神经网络和 Transformers 网络。这项研究有望为非洲语言的多语种和低资源语言建模开辟新的研究途径。

Apr, 2021

面向资源匮乏语言的跨语言任务特定表示学习用于文本分类

使用双向 LSTM 网络与相似度度量的对比损失函数，通过在共同空间中学习资源贫乏和资源丰富句子的表示方法，实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言（如印地语和泰卢固语）和资源丰富语言（如英语和西班牙语）进行有效分类的目标。

Jun, 2018

低资源环境下基于语言模型的上下文拼写纠错

通过训练小规模的基于词的 Transformer 语言模型，提取语料库中的概率性错误规则，结合语言模型和错误模型，通过嘈杂信道框架开发拼写校正模型，实验验证了该方法在尼泊尔语中的有效性。

Apr, 2024

大型语言模型是否能理解上下文？

理解上下文是理解人类语言的关键，本论文介绍了一个上下文理解基准，通过适应现有数据集来评估生成模型的能力，并发现预先训练的稠密模型在理解复杂上下文特征方面比优化调整模型困难。

Feb, 2024

低资源场景中 PoS 标注器模型的建模

在资源匮乏的情景下，我们评估了早期学习曲线估计作为选择在非深度学习者应用的最适模型的实用机制，以提高性能并控制成本。使用西伊比利亚 - 罗曼斯语族中的加利西亚语作为案例研究，实验结果与我们的预期一致。

Feb, 2024

低资源神经机器翻译的语言模型先验

本文介绍了一种新的神经翻译模型加入语言模型的先验知识的方法，通过加入正则化项确保神经翻译模型输出分布在语言模型先验下的概率合理，而避免与语言模型的不一致。与先前的工作不同，该方法只在训练时使用语言模型，并不会降低解码速度，实验结果表明该方法适用于小数据量机器翻译任务。

Apr, 2020