探索建立闽南语 - 普通话混合语料库的方法:以台湾福建话为例研究
通过零 - shot 的方法,我们探索使用大型语言模型 ChatGPT,用于生成东南亚五种语言(印度尼西亚语、马来语、汉语、塔加洛语、越南语)和混杂语 Singlish 的混杂数据,结果表明 ChatGPT 显示了最大的潜力,并且 InstructGPT 的表现也值得我们关注,但由于单词选择错误而导致语义不准确。由此我们呼吁在类似的低资源 NLP 情境中谨慎应用类似技术。
Mar, 2023
本文研究如何使用深度学习方法提高混合语言识别的准确性,提出了包括使用 Residual CNN+GRU 模型,以及使用自动语音识别(ASR)作为辅助任务的多任务预训练方法等两种有效方法,并且通过使用单语语料库以及数据上采样等方法来创造真正的混合语言数据集,最终实验结果显示,本文提出的模型在英汉混合语言语音识别准确度上超过了之前的基准模型约 55.3%。
May, 2023
该研究提出了一种用于生成马拉地语 - 英语混合文本的算法,并通过 Code Mixing Index(CMI)和 Degree of Code Mixing(DCM)指标进行评估,结果表明该算法能够生成有效和可理解的混合语句子,为多语社会中的语言差距提供了潜在的增强 NLP 工具的可能性。
Sep, 2023
本文研究了混合编码(Hinglish 和 Bengalish)到英语的机器翻译问题,通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型(RCMT),并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力,通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。
Mar, 2024
本文研究语言混合的机器生成问题,在低资源情况下基于评价因素预测合成质量,以应对数据扩充的需求。
Jun, 2022
本文研究围绕语内码混杂问题,提出了多种合成混杂数据方法,在各种数量的标注黄金数据中,在下游情感分析任务上表现出色。最重要的是,我们的方法表明,用定量掩码替换矩阵语言句子的部分内容可以显著提高分类准确性,这激发了对码混杂现象的进一步语言学洞察。我们在各种低资源和跨语言设置中测试了数据增强方法,在极度缺乏英马拉雅语的数据集上获得了高达 7.73%的相对改进。最后,我们提出了一种语言不可知的 SCM 算法,对低资源语言非常有用。
Nov, 2022
讨论多语社会中 NLP 研究的现状、局限与未来的发展。提出英汉混合语言作为案例,探究五个涉及到社会福祉的应用领域:危机管理、医疗保健、政治宣传、假新闻与仇恨言论等。同时,提出了未来多语言 NLP 应用中可能涉及到的数据集、模型和工具。
Jun, 2021
本研究旨在填补机器翻译对台湾闽南语等低资源语言的相对忽视之处,通过开发台湾闽南语与繁体中文及英文的双向翻译模型,并利用预训练的 LLaMA2-7B 模型,综合实验跨越台湾闽南语的不同书写系统以及与其他高资源语言之间的翻译任务,最终大大提升了模型的翻译能力,并通过标准化所有台湾闽南语书写系统为福建汉字,进一步提高了性能;另外,引入反向翻译和 GPT-4 结合的评估方法,确保了对低资源语言的可靠翻译质量评估;此研究有助于缩小台湾闽南语的资源差距,并从实证角度研究了基于 LLaMA 2 的预训练和微调的优势和局限性。
Mar, 2024
该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型,并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。
Apr, 2022
本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库,结合规则和监督模型,研发了自动感知分析的混合系统,以降低标注的人工工作量;同时,通过各种测量方法,对这种混合语料库的语言和情感特征进行了定量和定性的评估。
Mar, 2018