借用还是语码切换？在语言混合中注释更精细的差异

Jun, 2022

借用还是语码切换？在语言混合中注释更精细的差异

Borrowing or Codeswitching? Annotating for Finer-Grained Distinctions in Language Mixing

Elena Alvarez Mellado, Constantine Lignos

TL;DR本文介绍了一个新的 Twitter 数据语料库，其中包含被注释为西班牙语和英语之间的代码切换或借用的 9,500 个推文，旨在清晰定义代码切换和借入之间的界限，并可用于研究和建模 Twitter 上的西班牙语 - 英语借用和代码切换，最终给出了基于 Transformer 模型的语言模型的基准得分。

Abstract

We present a new corpus of twitter data annotated for codeswitching and

twitter data codeswitching borrowing corpus language models

发现论文，激发创造

检测西班牙语中的未同化借词：一个带注释的语料库和建模方法

本研究提供了一种新的借词识别资源，并分析了几种模型在此任务上的性能和错误。我们介绍了一个新的西班牙新闻语料库，其中包含 370,000 个标记，用于评估几种序列标记模型（CRF，BiLSTM-CRF 和基于 Transformer 的模型）的表现。我们的结果表明，一个 BiLSTM-CRF 模型配合子词嵌入，以及预先训练对话切换数据的 Transformer-based 嵌入或一个上下文化词嵌入的组合胜过多语种 BERT-based 模型得到的结果。

Mar, 2022

SemEval-2020 任务 9 中的 CS-Embed：代码交换词嵌入在情感分析中的有效性

本文介绍了一种基于 Spanglish 语料库训练的词向量模型，用于混合代码的文本的情感分析，并在 SemEval 2020 任务上取得了较好的效果。

Jun, 2020

NLP-CIC 在 SemEval-2020 任务 9 中使用简单深度学习分类器分析混合语言情感

本文通过使用卷积神经网络模型来预测西班牙语和英语混合推文的情感，取得了 F1-score 为 0.71 的成绩，并分析了模型的能力和代码切换语境下分类情感的重要困难。

Sep, 2020

El Volumen Louder Por Favor: 任务导向的语义解析中的语码转换

本研究的重点在于 Spanglish，提出了两种数据增强方法解决 CS 样本不足问题，结合少样本的情况，使零样本和全数据的准确度差距缩小了三分之二。

Jan, 2021

朝着更好的包容性：一种多样化的英语方言推文语料库

通过采集和分析社交媒体上的英语变种示例，我们旨在解决自然语言处理中的偏见问题。我们将建立一个来自使用非标准英语变种的国家的推文数据集，并提出一个标注框架，通过度量标准英语的程度间接揭示这些推文中英语变种的表现。我们的语料库突出了在西方英语和非西方（即较不标准）英语变种之间的预训练语言识别器准确性差异，并希望为识别和减少自然语言处理中的隐含人口统计差异做出贡献。

Jan, 2024

SemEval-2020 任务 9：代码混合推文的情感分析概述

本文介绍了 SemEval-2020 任务 9 关于混合代码推文情感分析（SentiMix 2020）的结果，释放和描述了标记有单词级别语言识别和句子级别情感标签的 Hinglish（印地语 - 英语）和 Spanglish（西班牙语 - 英语）语料库。最好的表现是在 Hinglish 和 Spanglish 分别获得了 75.0％ F1 得分和 80.6％ F1 得分。观察到在比赛者中 BERT-like 模型和集合方法是最常见和成功的方法。

Aug, 2020

基于 Twitter 的众包方言表征

使用地理标记微博数据集对西班牙语言的地区变体进行了大规模分析，发现该语言分为两个超级方言，包括城市语言和更具区域特色的农村和小城镇语言的不同形式。

Jul, 2014

一切英文皆可是印地语：通过自动排名社交媒体上单词借用的可能性来增强语言识别

本文介绍了一组用于识别借用单词的计算方法，这些方法是基于社交媒体的信号的。通过 Spearman 相关系数值，我们的方法在预测借用可能性方面比文献中报道的最佳基准线表现好两倍以上（近 0.62 比近 0.26）。我们根据这种可能性估计要求标注员重新标注主要为本土语境中的外语词的语言标签。在 88％的情况下，标注员认为应该用本地语言标签替换外语标签，从而表明自动语言识别系统有很大的改进空间。

Jul, 2017

历史西班牙语开放式历时语料库：标注标准和自动化拼写现代化

描述了 IMPACT-es 历史西班牙语语料库和相应词汇表，其中包括 8 百万个单词和 1 万多个单词和他们在文件中的各种变体的链接。介绍了基于文本编码倡议的标准和标注标准，并说明了利用统计机器翻译技术推断概率上下文敏感规则的应用。

Jun, 2013

Hindi-English 混合语的通用依存句法分析

本文研究代码切换数据的句法分析，提出了规范化和反回译模型的解码过程，以及利用词性标注和句法树注释的神经堆叠模型。结果显示，我们的神经叠加分析器比增强分析模型优越 1.5％LAS 点，并且我们的解码过程比第一个最佳规范化和 / 或反回译提高了 3.8％LAS 点。

Apr, 2018