代码交替的计算处理挑战

EMNLPOct, 2016

Challenges of Computational Processing of Code-Switching

Özlem Çetinoğlu, Sarah Schulz, Ngoc Thang Vu

TL;DR本文探讨了在非规范化的混合两种或更多语言的多语言数据上进行自然语言处理的挑战，重点关注语言识别、依存分析和机器翻译等 NLP 任务的关键问题。

Abstract

This paper addresses challenges of natural language processing (NLP) on non-canonical multilingual data in which two or more languages are mixed. It refers to →

natural language processing code-switching multilingual data machine translation dependency parsing

发现论文，激发创造

码 - 语混合话语与语言处理的概述

本篇论文综述了多语言社区中通用的一种交际现象 —— 语码转换，并且概述了计算机语言处理的方法。同时该文阐述了处理语码转换的语音和自然语言处理在建立智能代理和与多语言社区用户的交互系统中的重要作用，发现语码转换数据和资源的稀缺性，并列出了可利用的各种编码语言对及相应的自然语言处理任务。最后，概述了语码转换在各种语音和自然语言处理应用中的研究，并对该领域的未来方向和问题进行了总结。

Mar, 2019

自然语言处理中代码切换研究的几十年进展：趋势和挑战的系统调查

本文针对语言学与计算机科学领域的交叉学科问题 —— 代码切换现象进行了系统性的研究综述，归纳了过去几十年的研究进展、任务挑战、学术趋势和未来研究方向等。

Dec, 2022

多语社会中代码混合自然语言处理所面临的挑战和考虑

讨论多语社会中 NLP 研究的现状、局限与未来的发展。提出英汉混合语言作为案例，探究五个涉及到社会福祉的应用领域：危机管理、医疗保健、政治宣传、假新闻与仇恨言论等。同时，提出了未来多语言 NLP 应用中可能涉及到的数据集、模型和工具。

Jun, 2021

启用代码交替机器翻译的检查和策略

本研究探讨了多语言神经机器翻译模型处理语种混杂文本的能力，提出了一种检测方法和简单有效的数据增强方法，同时通过对注意力模块的分析证明了这些方法的有效性。

Oct, 2022

代码切换语言识别更加困难

通过建立代码切换语料库的应用，我们研究了代码切换语言识别，考虑到多种语言和较简单的模型架构以实现更快速推理。我们将任务重新定义为句子级多标签标注问题，以使其更易处理，并提出反映所需性能的度量指标。我们通过实证实现表明当前的方法都不足够，并在这一领域提供未来工作的建议。

Feb, 2024

混码探针展示预训练模型如何在混码文本上泛化

本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究，揭示了预训练语言模型在泛化到混合语言文本上的有效性，从而为这些模型在处理混合语言资源方面的能力提供了洞察。

Mar, 2024

NLP-CIC 在 SemEval-2020 任务 9 中使用简单深度学习分类器分析混合语言情感

本文通过使用卷积神经网络模型来预测西班牙语和英语混合推文的情感，取得了 F1-score 为 0.71 的成绩，并分析了模型的能力和代码切换语境下分类情感的重要困难。

Sep, 2020

使用语法感知多任务学习的代码切换语言建模

本研究提出了一种基于多任务学习的语言模型，其共享语言的语法表示，从而利用语言学信息并解决低资源数据问题，通过同时学习语言建模和语音标记来识别代码切换点的位置并改进下一个词的预测，实验表明该方法在 SEAME Phase I 和 Phase II 数据集上的困惑度分别提高了 9.7% 和 7.4%，优于基于标准 LSTM 的语言模型。

May, 2018

跨文化 NLP 的挑战和策略

该研究提出了一个系统化的框架，旨在更好地服务于使用自然语言处理系统的用户。该框架考虑了语言和文化之间的区别，以及跨文化和多元文化对 NLP 的影响，并调研了现有的和潜在的策略。

Mar, 2022

Hindi-English 混合语的通用依存句法分析

本文研究代码切换数据的句法分析，提出了规范化和反回译模型的解码过程，以及利用词性标注和句法树注释的神经堆叠模型。结果显示，我们的神经叠加分析器比增强分析模型优越 1.5％LAS 点，并且我们的解码过程比第一个最佳规范化和 / 或反回译提高了 3.8％LAS 点。

Apr, 2018