该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型,并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。
Apr, 2022
本文研究了混合编码(Hinglish 和 Bengalish)到英语的机器翻译问题,通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型(RCMT),并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力,通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。
Mar, 2024
我们提出了 hinglishNorm - 一组人类注释的印地语 - 英语混合句子的语料库,用于文本规范化任务,并在该语料库上展示了基线规范化结果。
Oct, 2020
本研究使用多语言 BERT 模型,通过比较合成和人工生成的句子之间的相似度,预测合成的 Hinglish 句子的质量,并确定影响系统生成 Code-Mixed 文本数据质量的因素。
Jun, 2022
该研究提出了一种用于生成马拉地语 - 英语混合文本的算法,并通过 Code Mixing Index(CMI)和 Degree of Code Mixing(DCM)指标进行评估,结果表明该算法能够生成有效和可理解的混合语句子,为多语社会中的语言差距提供了潜在的增强 NLP 工具的可能性。
Sep, 2023
本文研究语言混合的机器生成问题,在低资源情况下基于评价因素预测合成质量,以应对数据扩充的需求。
该论文介绍了一种生成用于混合语言的数据集 HinGE,旨在解决在多语言混合文本和语音中对生成文本进行评估的不足,并证明常用的评估度量标准在混合文本数据上的无效性。该数据集有助于混合语言的自然语言生成研究的进展。
Jul, 2021
本研究提供了一个新的公开平行语料库(PMIndia),其中包含 13 种主要印度语言和英语的成对平行句子,每种语言对包含高达 56000 个句子。该语料库的构建及两种不同自动句子对齐方法的评估被描述,同时还介绍了该语料库在 NMT 方面的一些初步结果。
Jan, 2020
本论文介绍了 SentMix-3L,一个包含三种语言(孟加拉语、英语和印地语)的代码混合情感分析数据集,并通过对 SentMix-3L 的全面评估表明,采用 GPT-3.5 的零次提示能够在 SentMix-3L 上胜过所有基于变压器的模型。
Oct, 2023
本论文表明,短语注入和语料库过滤的组合提高了神经机器翻译 (NMT) 系统的性能。我们从伪平行语料库中提取并增广平行短语和句子,以此训练 NMT 模型。在 Hindi-Marathi、English-Marathi 和 English-Pashto 这 3 种低资源语言对和 6 种翻译方向上,我们观察到了 NMT 系统的改进,并在 FLORES 测试数据上提高了 2.7 BLEU 分,这些 BLEU 分数改进是基于使用整个伪平行语料库和平行语料库增广的模型。
Jan, 2023