借用还是语码切换?在语言混合中注释更精细的差异
本研究提供了一种新的借词识别资源,并分析了几种模型在此任务上的性能和错误。我们介绍了一个新的西班牙新闻语料库,其中包含 370,000 个标记,用于评估几种序列标记模型(CRF,BiLSTM-CRF 和基于 Transformer 的模型)的表现。我们的结果表明,一个 BiLSTM-CRF 模型配合子词嵌入,以及预先训练对话切换数据的 Transformer-based 嵌入或一个上下文化词嵌入的组合胜过多语种 BERT-based 模型得到的结果。
Mar, 2022
本文介绍了一种基于 Spanglish 语料库训练的词向量模型,用于混合代码的文本的情感分析,并在 SemEval 2020 任务上取得了较好的效果。
Jun, 2020
本文通过使用卷积神经网络模型来预测西班牙语和英语混合推文的情感,取得了 F1-score 为 0.71 的成绩,并分析了模型的能力和代码切换语境下分类情感的重要困难。
Sep, 2020
本研究的重点在于 Spanglish,提出了两种数据增强方法解决 CS 样本不足问题,结合少样本的情况,使零样本和全数据的准确度差距缩小了三分之二。
Jan, 2021
通过采集和分析社交媒体上的英语变种示例,我们旨在解决自然语言处理中的偏见问题。我们将建立一个来自使用非标准英语变种的国家的推文数据集,并提出一个标注框架,通过度量标准英语的程度间接揭示这些推文中英语变种的表现。我们的语料库突出了在西方英语和非西方(即较不标准)英语变种之间的预训练语言识别器准确性差异,并希望为识别和减少自然语言处理中的隐含人口统计差异做出贡献。
Jan, 2024
本文介绍了 SemEval-2020 任务 9 关于混合代码推文情感分析(SentiMix 2020)的结果,释放和描述了标记有单词级别语言识别和句子级别情感标签的 Hinglish(印地语 - 英语)和 Spanglish(西班牙语 - 英语)语料库。最好的表现是在 Hinglish 和 Spanglish 分别获得了 75.0% F1 得分和 80.6% F1 得分。观察到在比赛者中 BERT-like 模型和集合方法是最常见和成功的方法。
Aug, 2020
使用地理标记微博数据集对西班牙语言的地区变体进行了大规模分析,发现该语言分为两个超级方言,包括城市语言和更具区域特色的农村和小城镇语言的不同形式。
Jul, 2014
本文介绍了一组用于识别借用单词的计算方法,这些方法是基于社交媒体的信号的。通过 Spearman 相关系数值,我们的方法在预测借用可能性方面比文献中报道的最佳基准线表现好两倍以上(近 0.62 比近 0.26)。我们根据这种可能性估计要求标注员重新标注主要为本土语境中的外语词的语言标签。在 88%的情况下,标注员认为应该用本地语言标签替换外语标签,从而表明自动语言识别系统有很大的改进空间。
Jul, 2017
描述了 IMPACT-es 历史西班牙语语料库和相应词汇表,其中包括 8 百万个单词和 1 万多个单词和他们在文件中的各种变体的链接。介绍了基于文本编码倡议的标准和标注标准,并说明了利用统计机器翻译技术推断概率上下文敏感规则的应用。
Jun, 2013
本文研究代码切换数据的句法分析,提出了规范化和反回译模型的解码过程,以及利用词性标注和句法树注释的神经堆叠模型。结果显示,我们的神经叠加分析器比增强分析模型优越 1.5%LAS 点,并且我们的解码过程比第一个最佳规范化和 / 或反回译提高了 3.8%LAS 点。
Apr, 2018