探索建立闽南语 - 普通话混合语料库的方法：以台湾福建话为例研究

EMNLPJan, 2023

探索建立闽南语 - 普通话混合语料库的方法：以台湾福建话为例研究

Exploring Methods for Building Dialects-Mandarin Code-Mixing Corpora: A Case Study in Taiwanese Hokkien

Sin-En Lu, Bo-Han Lu, Chao-Yi Lu, Richard Tzong-Han Tsai

TL;DR本文介绍了一种构建闽南语 - 华语混合语言数据集的方法，并使用基于语言学的工具包提供了有效的闽南话词语分割方法。此外，针对代码混合情景，作者适应了 XLM 的训练，并发现通过语言学知识、规则和语言标签，模型展现了良好的混合语言翻译效果，并保持了单语言翻译质量。

Abstract

In natural language processing (NLP), code-mixing (CM) is a challenging task, especially when the mixed languages include dialects. In Southeast Asian countries such as Singapore, Indonesia, and Malaysia,

natural language processing code-mixing hokkien-mandarin dataset construction transfer learning

发现论文，激发创造

引导大型语言模型生成混合文本：以东南亚语言为例

通过零 - shot 的方法，我们探索使用大型语言模型 ChatGPT，用于生成东南亚五种语言（印度尼西亚语、马来语、汉语、塔加洛语、越南语）和混杂语 Singlish 的混杂数据，结果表明 ChatGPT 显示了最大的潜力，并且 InstructGPT 的表现也值得我们关注，但由于单词选择错误而导致语义不准确。由此我们呼吁在类似的低资源 NLP 情境中谨慎应用类似技术。

Mar, 2023

基于多任务预训练和迁移学习的简单而有效的语言代码切换识别

本文研究如何使用深度学习方法提高混合语言识别的准确性，提出了包括使用 Residual CNN+GRU 模型，以及使用自动语音识别（ASR）作为辅助任务的多任务预训练方法等两种有效方法，并且通过使用单语语料库以及数据上采样等方法来创造真正的混合语言数据集，最终实验结果显示，本文提出的模型在英汉混合语言语音识别准确度上超过了之前的基准模型约 55.3%。

May, 2023

马拉地英语混合文本生成

该研究提出了一种用于生成马拉地语 - 英语混合文本的算法，并通过 Code Mixing Index（CMI）和 Degree of Code Mixing（DCM）指标进行评估，结果表明该算法能够生成有效和可理解的混合语句子，为多语社会中的语言差距提供了潜在的增强 NLP 工具的可能性。

Sep, 2023

混合代碼響應的強響應代碼混合翻譯的生成和聯合學習

本文研究了混合编码（Hinglish 和 Bengalish）到英语的机器翻译问题，通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型（RCMT），并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力，通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。

Mar, 2024

PreCogIIITH 在 HinglishEval 的表现：利用代码混合指标和语言模型嵌入估计代码混合的质量

本文研究语言混合的机器生成问题，在低资源情况下基于评价因素预测合成质量，以应对数据扩充的需求。

Jun, 2022

通过预测语言模式进行跨语言代码混合数据增强

本文研究围绕语内码混杂问题，提出了多种合成混杂数据方法，在各种数量的标注黄金数据中，在下游情感分析任务上表现出色。最重要的是，我们的方法表明，用定量掩码替换矩阵语言句子的部分内容可以显著提高分类准确性，这激发了对码混杂现象的进一步语言学洞察。我们在各种低资源和跨语言设置中测试了数据增强方法，在极度缺乏英马拉雅语的数据集上获得了高达 7.73％的相对改进。最后，我们提出了一种语言不可知的 SCM 算法，对低资源语言非常有用。

Nov, 2022

多语社会中代码混合自然语言处理所面临的挑战和考虑

讨论多语社会中 NLP 研究的现状、局限与未来的发展。提出英汉混合语言作为案例，探究五个涉及到社会福祉的应用领域：危机管理、医疗保健、政治宣传、假新闻与仇恨言论等。同时，提出了未来多语言 NLP 应用中可能涉及到的数据集、模型和工具。

Jun, 2021

探索和标准化四种写作系统，提升福建双语翻译

本研究旨在填补机器翻译对台湾闽南语等低资源语言的相对忽视之处，通过开发台湾闽南语与繁体中文及英文的双向翻译模型，并利用预训练的 LLaMA2-7B 模型，综合实验跨越台湾闽南语的不同书写系统以及与其他高资源语言之间的翻译任务，最终大大提升了模型的翻译能力，并通过标准化所有台湾闽南语书写系统为福建汉字，进一步提高了性能；另外，引入反向翻译和 GPT-4 结合的评估方法，确保了对低资源语言的可靠翻译质量评估；此研究有助于缩小台湾闽南语的资源差距，并从实证角度研究了基于 LLaMA 2 的预训练和微调的优势和局限性。

Mar, 2024

L3Cube-HingCorpus 和 HingBERT：一种混合编码印地语 - 英语数据集和 BERT 语言模型

该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型，并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。

Apr, 2022

为情感分析准备孟加拉英语混合编码语料库

本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库，结合规则和监督模型，研发了自动感知分析的混合系统，以降低标注的人工工作量；同时，通过各种测量方法，对这种混合语料库的语言和情感特征进行了定量和定性的评估。

Mar, 2018