检测西班牙语中的未同化借词：一个带注释的语料库和建模方法

ACLMar, 2022

检测西班牙语中的未同化借词：一个带注释的语料库和建模方法

Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and Approaches to Modeling

Elena Álvarez-Mellado, Constantine Lignos

TL;DR本研究提供了一种新的借词识别资源，并分析了几种模型在此任务上的性能和错误。我们介绍了一个新的西班牙新闻语料库，其中包含 370,000 个标记，用于评估几种序列标记模型（CRF，BiLSTM-CRF 和基于 Transformer 的模型）的表现。我们的结果表明，一个 BiLSTM-CRF 模型配合子词嵌入，以及预先训练对话切换数据的 Transformer-based 嵌入或一个上下文化词嵌入的组合胜过多语种 BERT-based 模型得到的结果。

Abstract

This work presents a new resource for borrowing identification and analyzes the performance and errors of several models on this task. We introduce a new annotated corpus of Spanish newswire rich in unassimilated lexical borrowings -- words from one language that are introduced into an

borrowing identification sequence labeling models spanish newswire corpus subword embeddings transformer-based embeddings

发现论文，激发创造

借用还是语码切换？在语言混合中注释更精细的差异

本文介绍了一个新的 Twitter 数据语料库，其中包含被注释为西班牙语和英语之间的代码切换或借用的 9,500 个推文，旨在清晰定义代码切换和借入之间的界限，并可用于研究和建模 Twitter 上的西班牙语 - 英语借用和代码切换，最终给出了基于 Transformer 模型的语言模型的基准得分。

Jun, 2022

西班牙语语言模型评估中得到的经验教训

本文提供了一份全面的研究报告，比较了用于西班牙语的语言模型，报告显示：先前被忽略的大型跨语言模型比单语模型表现更好，单语模型的结果并不是确定性的，需要进一步研究语料库大小、质量和预训练技术等因素。

Dec, 2022

SemEval-2022 11 任务：语义模糊环境中低资源语言的复杂命名实体识别

使用预训练的语言模型和整词遮罩技术，结合 CRF、BiLSTMs、线性分类器等多种神经网络架构，在中文和西班牙语两种低资源语言的命名实体识别任务上超越基准，并在任务中表现最佳模型占据竞争性位置。

Jul, 2022

面向资源匮乏语言的跨语言任务特定表示学习用于文本分类

使用双向 LSTM 网络与相似度度量的对比损失函数，通过在共同空间中学习资源贫乏和资源丰富句子的表示方法，实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言（如印地语和泰卢固语）和资源丰富语言（如英语和西班牙语）进行有效分类的目标。

Jun, 2018

无监督多语言句子嵌入用于平行语料挖掘

本研究提出了一种新的无监督方法，通过使用单语数据来获得跨语言句子嵌入，产生了合成平行语料库，使用预训练的跨语言掩码语言模型（XLM）对其进行微调以得到多语言句子表示，并在两个平行语料库挖掘任务上评估了表示的质量，结果表明，这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外，我们还观察到，单个合成的双语语料库能够改善其他语言对的结果。

May, 2021

使用双向递归神经网络引导多语言文本分析工具

本文旨在研究对于资源贫乏的语言的快速语言注释工具的发展，我们采用递归神经网络模型实验了多种跨语言注释映射方法。我们提出了一种真正的多语言标记器方法，并通过使用平行语料库证实了其有效性和通用性。

Sep, 2016

使用双语词典进行标注低资源语言的模型转移

本研究提出了一种新颖的基于跨语言词向量的神经网络模型，通过高覆盖的双语词典训练，利用跨语言模型转移的方法，针对低资源语言的注释预测问题提出了解决方案，并通过多种主动学习启发式方法，提升了该方法的性能。

May, 2017

多语言 BERT 模型的词形句法探测

本研究介绍了一个广泛的多语言探测词形信息数据集，利用预训练变形金刚模型（mBERT 和 XLM-RoBERTa），并应用两种方法确定输入中区别信息的位置以实现强大的性能。其中最显著的发现是前缀上下文持有比后缀上下文更多相关预测信息。

Jun, 2023

评估低资源语言的语言模型微调技术

我们介绍了一个新的 Filipino 语言建模数据集，并展示了在低资源环境下，采用 BERT 和 ULMFiT 等语言模型微调技术，能够稳定地训练出健壮的分类器。

Jun, 2019

低资源语言的跨语言形态标注

提出了一种适用于低资源语言的模型来训练形态标记器，该模型使用 Wesabie 模型进行打标，通过在语料库中引入 POS 词性标注的元信息，将标记信息从富资源语言映射到贫资源语言，实现了跨语言知识的迁移，可以提高句法分析的效果。

Jun, 2016