语音转录中代码切换动机的自动识别

Nov, 2022

语音转录中代码切换动机的自动识别

Automatic Identification of Motivation for Code-Switching in Speech Transcripts

Ritu Belani, Jeffrey Flanigan

TL;DR该研究建立了一个新的跨语言切换数据集，准确地识别出多语言演讲者在日常语言中使用广泛的跨语言切换动机，并证明了该系统适用于新语言配对，使用该注释方案的交叉语言应用性达到了 66％的准确度。

Abstract

code-switching, or switching between languages, occurs for many reasons and has important linguistic, sociological, and cultural implications. Multilingual speakers code-switch for a variety of purposes, such as expressing emotions, borrowing terms, making jokes, introducing a new topi

code-switching multilingualism motivations dataset cross-lingual

发现论文，激发创造

码 - 语混合话语与语言处理的概述

本篇论文综述了多语言社区中通用的一种交际现象 —— 语码转换，并且概述了计算机语言处理的方法。同时该文阐述了处理语码转换的语音和自然语言处理在建立智能代理和与多语言社区用户的交互系统中的重要作用，发现语码转换数据和资源的稀缺性，并列出了可利用的各种编码语言对及相应的自然语言处理任务。最后，概述了语码转换在各种语音和自然语言处理应用中的研究，并对该领域的未来方向和问题进行了总结。

Mar, 2019

共享的词汇项目作为代码交替的触发器

双语者的码切（两种语言混合）为何发生？本文通过使用三种语言对五个大型数据集进行更全面、更细致的研究与探讨，以更加清晰地解释触发假设。实验证明，同时存在于双语者心理词汇库中的词确实能触发码切现象，并且码切的倾向取决于触发词距离码切点的远近，以及触发词在码切前还是码切后出现，但不取决于触发词的词源。因此，本研究提供了关于词汇触发词与码切之间关系的强有力、可靠的基于证据的证实。

Aug, 2023

启用代码交替机器翻译的检查和策略

本研究探讨了多语言神经机器翻译模型处理语种混杂文本的能力，提出了一种检测方法和简单有效的数据增强方法，同时通过对注意力模块的分析证明了这些方法的有效性。

Oct, 2022

混码语调查：语言技术的语言和社会观点

本文展示了针对多种语言的数据的分析在计算语言学界越来越受欢迎。作者提供代码交换（C-S）的调查，涵盖了语言学文献中的关键问题，并从欧洲和印度等高度多语言区域的文献中着重讨论 C-S 结构和功能模式的概述。此外，作者还讨论了如何使大规模语言模型失败以代表各种 C-S 类型，以及如何缺乏跨多语言情况和 C-S 类型导致缺乏强大的评估基准以及覆盖 C-S sociolinguistic 方面的端到端系统。

Jan, 2023

语言建模用于代码交替：评估、整合单语数据和判别式训练

本文研究语言建模在代表代码切换语言的语境下在自动语音识别（ASR）中所存在的难题，针对三个难点分别提出解决方案：如何从缺乏大规模训练数据、ASR 系统中与语言建模相关的性能测试的实现方法以及基于生成式模型所存在的缺陷，我们构建了一个独立于 ASR 系统和词汇选择的评估数据集和评估方式，并采用一种判别式训练方法，证明其比生成式更加有效。最后，我们探索了多种训练协议，并验证了使用大量单语数据随后加上小量的代码切换数据来进行精调训练的可行性。

Oct, 2018

跨语言脚本转化与对齐：用于混合编码数据的情感检测

本研究提出了一种跨语言脚本知识共享架构，利用交叉关注和语言脚本的对齐来生成更好的文本表示，实验证明了该方法的有效性，并通过模型可解释性技术解释了语言特定表示之间的知识共享。

Feb, 2024

基于多任务预训练和迁移学习的简单而有效的语言代码切换识别

本文研究如何使用深度学习方法提高混合语言识别的准确性，提出了包括使用 Residual CNN+GRU 模型，以及使用自动语音识别（ASR）作为辅助任务的多任务预训练方法等两种有效方法，并且通过使用单语语料库以及数据上采样等方法来创造真正的混合语言数据集，最终实验结果显示，本文提出的模型在英汉混合语言语音识别准确度上超过了之前的基准模型约 55.3%。

May, 2023

代码转换中的主体：基于字符框架的预测埃及阿拉伯语 - 英语代码转换水平的案例研究

本研究旨在通过对双语者的用户研究来预测他们的语码切换行为，探讨不同因素对语码切换行为的影响，结果表明说话人之间的关系、旅游经历以及神经质和外向性人格特征会影响语码切换行为。

Jul, 2022

代码切换语言识别更加困难

通过建立代码切换语料库的应用，我们研究了代码切换语言识别，考虑到多种语言和较简单的模型架构以实现更快速推理。我们将任务重新定义为句子级多标签标注问题，以使其更易处理，并提出反映所需性能的度量指标。我们通过实证实现表明当前的方法都不足够，并在这一领域提供未来工作的建议。

Feb, 2024

混码探针展示预训练模型如何在混码文本上泛化

本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究，揭示了预训练语言模型在泛化到混合语言文本上的有效性，从而为这些模型在处理混合语言资源方面的能力提供了洞察。

Mar, 2024