代码交替的计算处理挑战
本篇论文综述了多语言社区中通用的一种交际现象 —— 语码转换,并且概述了计算机语言处理的方法。同时该文阐述了处理语码转换的语音和自然语言处理在建立智能代理和与多语言社区用户的交互系统中的重要作用,发现语码转换数据和资源的稀缺性,并列出了可利用的各种编码语言对及相应的自然语言处理任务。最后,概述了语码转换在各种语音和自然语言处理应用中的研究,并对该领域的未来方向和问题进行了总结。
Mar, 2019
本文针对语言学与计算机科学领域的交叉学科问题 —— 代码切换现象进行了系统性的研究综述,归纳了过去几十年的研究进展、任务挑战、学术趋势和未来研究方向等。
Dec, 2022
讨论多语社会中 NLP 研究的现状、局限与未来的发展。提出英汉混合语言作为案例,探究五个涉及到社会福祉的应用领域:危机管理、医疗保健、政治宣传、假新闻与仇恨言论等。同时,提出了未来多语言 NLP 应用中可能涉及到的数据集、模型和工具。
Jun, 2021
本研究探讨了多语言神经机器翻译模型处理语种混杂文本的能力,提出了一种检测方法和简单有效的数据增强方法,同时通过对注意力模块的分析证明了这些方法的有效性。
Oct, 2022
通过建立代码切换语料库的应用,我们研究了代码切换语言识别,考虑到多种语言和较简单的模型架构以实现更快速推理。我们将任务重新定义为句子级多标签标注问题,以使其更易处理,并提出反映所需性能的度量指标。我们通过实证实现表明当前的方法都不足够,并在这一领域提供未来工作的建议。
Feb, 2024
本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究,揭示了预训练语言模型在泛化到混合语言文本上的有效性,从而为这些模型在处理混合语言资源方面的能力提供了洞察。
Mar, 2024
本文通过使用卷积神经网络模型来预测西班牙语和英语混合推文的情感,取得了 F1-score 为 0.71 的成绩,并分析了模型的能力和代码切换语境下分类情感的重要困难。
Sep, 2020
本研究提出了一种基于多任务学习的语言模型,其共享语言的语法表示,从而利用语言学信息并解决低资源数据问题,通过同时学习语言建模和语音标记来识别代码切换点的位置并改进下一个词的预测,实验表明该方法在 SEAME Phase I 和 Phase II 数据集上的困惑度分别提高了 9.7% 和 7.4%,优于基于标准 LSTM 的语言模型。
May, 2018
该研究提出了一个系统化的框架,旨在更好地服务于使用自然语言处理系统的用户。该框架考虑了语言和文化之间的区别,以及跨文化和多元文化对 NLP 的影响,并调研了现有的和潜在的策略。
Mar, 2022
本文研究代码切换数据的句法分析,提出了规范化和反回译模型的解码过程,以及利用词性标注和句法树注释的神经堆叠模型。结果显示,我们的神经叠加分析器比增强分析模型优越 1.5%LAS 点,并且我们的解码过程比第一个最佳规范化和 / 或反回译提高了 3.8%LAS 点。
Apr, 2018