代码切换语言识别更加困难
本文研究如何使用深度学习方法提高混合语言识别的准确性,提出了包括使用 Residual CNN+GRU 模型,以及使用自动语音识别(ASR)作为辅助任务的多任务预训练方法等两种有效方法,并且通过使用单语语料库以及数据上采样等方法来创造真正的混合语言数据集,最终实验结果显示,本文提出的模型在英汉混合语言语音识别准确度上超过了之前的基准模型约 55.3%。
May, 2023
本文将语种识别任务推广到子词级别,研究如何识别包含两种以上语言的语素(intra-word CS),提出了一种基于分段循环神经网络的模型,并在西班牙 - 韦萨里卡数据集和德国 - 土耳其数据集的实验中,相较于基准方法有略微提升或相当的表现。
Apr, 2019
研究提出了一种基于 ELMo 模型和位置感知的关注机制的代码切换模型:CS-ELMo,它通过迁移学习将英语知识转移到不同的代码切换语言对(如尼泊尔语 - 英语,西班牙语 - 英语和印地语 - 英语),并在 NER 和 POS 标记等关键任务上显著优于其他模型。
Sep, 2019
本篇论文综述了多语言社区中通用的一种交际现象 —— 语码转换,并且概述了计算机语言处理的方法。同时该文阐述了处理语码转换的语音和自然语言处理在建立智能代理和与多语言社区用户的交互系统中的重要作用,发现语码转换数据和资源的稀缺性,并列出了可利用的各种编码语言对及相应的自然语言处理任务。最后,概述了语码转换在各种语音和自然语言处理应用中的研究,并对该领域的未来方向和问题进行了总结。
Mar, 2019
本文研究提出一种简单而有效的数据增强方法,以在缺乏大量语料库的情况下训练多语言系统,进而提高 Code-Switching 语音的自动识别水平。通过将不同源语言的音频和相应标签连结在一起训练神经网络端到端 (E2E) 模型,实现在跨句子语言转换方面的提高。
Oct, 2022
MaskLID 是一种简单而有效的代码切换语言识别方法,旨在补充当前高性能的句子级别识别器。它通过掩盖与 L1 语言相关的文本特征,使得识别器可以在下一轮中将文本分类为 L2,从而解决仅返回 L1 标签的问题。该方法利用识别器本身来识别需要掩盖的特征,不依赖于任何外部资源。本研究在两种开源识别器 (GlotLID 和 OpenLID) 上探索了 MaskLID 的应用,它们都基于 FastText 架构。
Jun, 2024
本文研究多种策略用于在两种语言或方言之间进行 linguistic code switching POS 标注的方法,并表明使用两种现有的 POS 标注器的机器学习框架比其他方法实现的性能更好。
Sep, 2019
本篇研究关注英语 / 西班牙语对话中出现的代码转换,探讨在语音翻译任务中采用级联和端到端、单向和双向等不同架构的模型表现,得出双向端到端模型表现良好的结论。
Apr, 2022
本文通过使用卷积神经网络模型来预测西班牙语和英语混合推文的情感,取得了 F1-score 为 0.71 的成绩,并分析了模型的能力和代码切换语境下分类情感的重要困难。
Sep, 2020