代码切换语言识别更加困难

ACLFeb, 2024

Code-Switched Language Identification is Harder Than You Think

Laurie Burchell, Alexandra Birch, Robert P. Thompson, Kenneth Heafield

TL;DR通过建立代码切换语料库的应用，我们研究了代码切换语言识别，考虑到多种语言和较简单的模型架构以实现更快速推理。我们将任务重新定义为句子级多标签标注问题，以使其更易处理，并提出反映所需性能的度量指标。我们通过实证实现表明当前的方法都不足够，并在这一领域提供未来工作的建议。

Abstract

code switching (CS) is a very common phenomenon in written and spoken communication but one that is handled poorly by many natural language processing applications. Looking to the application of building CS corpora, we explore CS →

code switching language identification corpus building multi-label tagging natural language processing

发现论文，激发创造

基于多任务预训练和迁移学习的简单而有效的语言代码切换识别

本文研究如何使用深度学习方法提高混合语言识别的准确性，提出了包括使用 Residual CNN+GRU 模型，以及使用自动语音识别（ASR）作为辅助任务的多任务预训练方法等两种有效方法，并且通过使用单语语料库以及数据上采样等方法来创造真正的混合语言数据集，最终实验结果显示，本文提出的模型在英汉混合语言语音识别准确度上超过了之前的基准模型约 55.3%。

May, 2023

基于子词的语言识别技术用于单词内的语码转换

本文将语种识别任务推广到子词级别，研究如何识别包含两种以上语言的语素（intra-word CS），提出了一种基于分段循环神经网络的模型，并在西班牙 - 韦萨里卡数据集和德国 - 土耳其数据集的实验中，相较于基准方法有略微提升或相当的表现。

Apr, 2019

从英语到混合语：利用强形态线索的迁移学习

研究提出了一种基于 ELMo 模型和位置感知的关注机制的代码切换模型：CS-ELMo，它通过迁移学习将英语知识转移到不同的代码切换语言对（如尼泊尔语 - 英语，西班牙语 - 英语和印地语 - 英语），并在 NER 和 POS 标记等关键任务上显著优于其他模型。

Sep, 2019

码 - 语混合话语与语言处理的概述

本篇论文综述了多语言社区中通用的一种交际现象 —— 语码转换，并且概述了计算机语言处理的方法。同时该文阐述了处理语码转换的语音和自然语言处理在建立智能代理和与多语言社区用户的交互系统中的重要作用，发现语码转换数据和资源的稀缺性，并列出了可利用的各种编码语言对及相应的自然语言处理任务。最后，概述了语码转换在各种语音和自然语言处理应用中的研究，并对该领域的未来方向和问题进行了总结。

Mar, 2019

代码交替的计算处理挑战

本文探讨了在非规范化的混合两种或更多语言的多语言数据上进行自然语言处理的挑战，重点关注语言识别、依存分析和机器翻译等 NLP 任务的关键问题。

Oct, 2016

端到端语音识别中的语言无关代码切换

本文研究提出一种简单而有效的数据增强方法，以在缺乏大量语料库的情况下训练多语言系统，进而提高 Code-Switching 语音的自动识别水平。通过将不同源语言的音频和相应标签连结在一起训练神经网络端到端 (E2E) 模型，实现在跨句子语言转换方面的提高。

Oct, 2022

MaskLID：通过迭代遮盖进行的代码切换语言识别

MaskLID 是一种简单而有效的代码切换语言识别方法，旨在补充当前高性能的句子级别识别器。它通过掩盖与 L1 语言相关的文本特征，使得识别器可以在下一轮中将文本分类为 L2，从而解决仅返回 L1 标签的问题。该方法利用识别器本身来识别需要掩盖的特征，不依赖于任何外部资源。本研究在两种开源识别器 (GlotLID 和 OpenLID) 上探索了 MaskLID 的应用，它们都基于 FastText 架构。

Jun, 2024

代码交替数据的词性标注

本文研究多种策略用于在两种语言或方言之间进行 linguistic code switching POS 标注的方法，并表明使用两种现有的 POS 标注器的机器学习框架比其他方法实现的性能更好。

Sep, 2019

端到端的语音翻译用于代码切换的语音

本篇研究关注英语 / 西班牙语对话中出现的代码转换，探讨在语音翻译任务中采用级联和端到端、单向和双向等不同架构的模型表现，得出双向端到端模型表现良好的结论。

Apr, 2022

NLP-CIC 在 SemEval-2020 任务 9 中使用简单深度学习分类器分析混合语言情感

本文通过使用卷积神经网络模型来预测西班牙语和英语混合推文的情感，取得了 F1-score 为 0.71 的成绩，并分析了模型的能力和代码切换语境下分类情感的重要困难。

Sep, 2020