语音转录中代码切换动机的自动识别
本篇论文综述了多语言社区中通用的一种交际现象 —— 语码转换,并且概述了计算机语言处理的方法。同时该文阐述了处理语码转换的语音和自然语言处理在建立智能代理和与多语言社区用户的交互系统中的重要作用,发现语码转换数据和资源的稀缺性,并列出了可利用的各种编码语言对及相应的自然语言处理任务。最后,概述了语码转换在各种语音和自然语言处理应用中的研究,并对该领域的未来方向和问题进行了总结。
Mar, 2019
双语者的码切(两种语言混合)为何发生?本文通过使用三种语言对五个大型数据集进行更全面、更细致的研究与探讨,以更加清晰地解释触发假设。实验证明,同时存在于双语者心理词汇库中的词确实能触发码切现象,并且码切的倾向取决于触发词距离码切点的远近,以及触发词在码切前还是码切后出现,但不取决于触发词的词源。因此,本研究提供了关于词汇触发词与码切之间关系的强有力、可靠的基于证据的证实。
Aug, 2023
本研究探讨了多语言神经机器翻译模型处理语种混杂文本的能力,提出了一种检测方法和简单有效的数据增强方法,同时通过对注意力模块的分析证明了这些方法的有效性。
Oct, 2022
本文展示了针对多种语言的数据的分析在计算语言学界越来越受欢迎。 作者提供代码交换(C-S)的调查,涵盖了语言学文献中的关键问题,并从欧洲和印度等高度多语言区域的文献中着重讨论 C-S 结构和功能模式的概述。 此外,作者还讨论了如何使大规模语言模型失败以代表各种 C-S 类型,以及如何缺乏跨多语言情况和 C-S 类型导致缺乏强大的评估基准以及覆盖 C-S sociolinguistic 方面的端到端系统。
Jan, 2023
本文研究语言建模在代表代码切换语言的语境下在自动语音识别(ASR)中所存在的难题,针对三个难点分别提出解决方案:如何从缺乏大规模训练数据、ASR 系统中与语言建模相关的性能测试的实现方法以及基于生成式模型所存在的缺陷,我们构建了一个独立于 ASR 系统和词汇选择的评估数据集和评估方式,并采用一种判别式训练方法,证明其比生成式更加有效。最后,我们探索了多种训练协议,并验证了使用大量单语数据随后加上小量的代码切换数据来进行精调训练的可行性。
Oct, 2018
本研究提出了一种跨语言脚本知识共享架构,利用交叉关注和语言脚本的对齐来生成更好的文本表示,实验证明了该方法的有效性,并通过模型可解释性技术解释了语言特定表示之间的知识共享。
Feb, 2024
本文研究如何使用深度学习方法提高混合语言识别的准确性,提出了包括使用 Residual CNN+GRU 模型,以及使用自动语音识别(ASR)作为辅助任务的多任务预训练方法等两种有效方法,并且通过使用单语语料库以及数据上采样等方法来创造真正的混合语言数据集,最终实验结果显示,本文提出的模型在英汉混合语言语音识别准确度上超过了之前的基准模型约 55.3%。
May, 2023
本研究旨在通过对双语者的用户研究来预测他们的语码切换行为,探讨不同因素对语码切换行为的影响,结果表明说话人之间的关系、旅游经历以及神经质和外向性人格特征会影响语码切换行为。
Jul, 2022
通过建立代码切换语料库的应用,我们研究了代码切换语言识别,考虑到多种语言和较简单的模型架构以实现更快速推理。我们将任务重新定义为句子级多标签标注问题,以使其更易处理,并提出反映所需性能的度量指标。我们通过实证实现表明当前的方法都不足够,并在这一领域提供未来工作的建议。
Feb, 2024
本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究,揭示了预训练语言模型在泛化到混合语言文本上的有效性,从而为这些模型在处理混合语言资源方面的能力提供了洞察。
Mar, 2024