句内语码转换的语法限制:从理论到工作模型
为了解决训练混合语言模型的困难,本研究提出了一种基于序列 - 序列模型及 copy 机制的新型训练方法,通过有限的混合语言数据和单语数据的并行翻译生成需要的混合语言数据,且无需对齐或分析,实现了良好的表现,并显著提高了末端自动语音识别。
Sep, 2019
本研究提出了一种基于多任务学习的语言模型,其共享语言的语法表示,从而利用语言学信息并解决低资源数据问题,通过同时学习语言建模和语音标记来识别代码切换点的位置并改进下一个词的预测,实验表明该方法在 SEAME Phase I 和 Phase II 数据集上的困惑度分别提高了 9.7% 和 7.4%,优于基于标准 LSTM 的语言模型。
May, 2018
本文提出了一种基于数据驱动的方法来解决代码切换语音识别中语音集限制、不同语言音素集和高昂的重建成本等挑战,其核心工作包括音标解码和不同选择策略。我们的实验结果表明,通过我们的方法,混杂的单词层中文英文代码切换识别的混合误差率从 29.15%降至 11.14%。
Oct, 2022
本文研究代码切换数据的句法分析,提出了规范化和反回译模型的解码过程,以及利用词性标注和句法树注释的神经堆叠模型。结果显示,我们的神经叠加分析器比增强分析模型优越 1.5%LAS 点,并且我们的解码过程比第一个最佳规范化和 / 或反回译提高了 3.8%LAS 点。
Apr, 2018
本文研究如何用神经机器翻译模型生成印地语 - 英语混合语种句子。通过预训练和使用合成数据来提高模型性能,生成的文本可用于数据增强,提高了语言模型任务和自然语言推理任务的性能,人工评估和客观指标的结果展现出了接近或优于印地语为母语的人群工作者生成的混合语种文本。
Jul, 2021
本文展示了针对多种语言的数据的分析在计算语言学界越来越受欢迎。 作者提供代码交换(C-S)的调查,涵盖了语言学文献中的关键问题,并从欧洲和印度等高度多语言区域的文献中着重讨论 C-S 结构和功能模式的概述。 此外,作者还讨论了如何使大规模语言模型失败以代表各种 C-S 类型,以及如何缺乏跨多语言情况和 C-S 类型导致缺乏强大的评估基准以及覆盖 C-S sociolinguistic 方面的端到端系统。
Jan, 2023
通过生成合成的 CSW GEC 数据集并选择 CSW 比例、转换点因素和语言约束进行研究,我们的研究探索了将 GEC 系统应用于 CSW 文本的方法,最佳模型在多个 CSW 测试集上取得了平均增长 1.57 的 F0.5,同时对单语数据集的性能没有影响,并发现在一个 CSW 语言上训练的模型相对于其他类型相似的 CSW 语言具有较好的泛化能力。
Apr, 2024
本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究,揭示了预训练语言模型在泛化到混合语言文本上的有效性,从而为这些模型在处理混合语言资源方面的能力提供了洞察。
Mar, 2024
本文将语种识别任务推广到子词级别,研究如何识别包含两种以上语言的语素(intra-word CS),提出了一种基于分段循环神经网络的模型,并在西班牙 - 韦萨里卡数据集和德国 - 土耳其数据集的实验中,相较于基准方法有略微提升或相当的表现。
Apr, 2019
研究提出了一种基于 ELMo 模型和位置感知的关注机制的代码切换模型:CS-ELMo,它通过迁移学习将英语知识转移到不同的代码切换语言对(如尼泊尔语 - 英语,西班牙语 - 英语和印地语 - 英语),并在 NER 和 POS 标记等关键任务上显著优于其他模型。
Sep, 2019