PHINC: 一个面向机器翻译的平行 Hinglish 社交媒体混合语料库

Apr, 2020

PHINC: 一个面向机器翻译的平行 Hinglish 社交媒体混合语料库

PHINC: A Parallel Hinglish Social Media Code-Mixed Corpus for Machine Translation

Vivek Srivastava, Mayank Singh

TL;DR本文介绍了一个包含 13,738 个混合使用英语和印地语的句子及其相应英文翻译的平行语料库，并释放这个语料库以方便未来对混合语言机器翻译的研究机会

Abstract

code-mixing is the phenomenon of using more than one language in a sentence. It is a very frequently observed pattern of communication on social media platforms. Flexibility to use multiple languages in one text

code-mixing social media natural language processing parallel corpus machine translation

发现论文，激发创造

L3Cube-HingCorpus 和 HingBERT：一种混合编码印地语 - 英语数据集和 BERT 语言模型

该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型，并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。

Apr, 2022

混合代碼響應的強響應代碼混合翻譯的生成和聯合學習

本文研究了混合编码（Hinglish 和 Bengalish）到英语的机器翻译问题，通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型（RCMT），并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力，通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。

Mar, 2024

hinglishNorm -- 印地语 - 英语编码混合句子语料库用于文本规范化

我们提出了 hinglishNorm - 一组人类注释的印地语 - 英语混合句子的语料库，用于文本规范化任务，并在该语料库上展示了基线规范化结果。

Oct, 2020

使用 Transformer 对混合印地语文本进行质量评估的 HinglishEval：比尔积尼学院

本研究使用多语言 BERT 模型，通过比较合成和人工生成的句子之间的相似度，预测合成的 Hinglish 句子的质量，并确定影响系统生成 Code-Mixed 文本数据质量的因素。

Jun, 2022

马拉地英语混合文本生成

该研究提出了一种用于生成马拉地语 - 英语混合文本的算法，并通过 Code Mixing Index（CMI）和 Degree of Code Mixing（DCM）指标进行评估，结果表明该算法能够生成有效和可理解的混合语句子，为多语社会中的语言差距提供了潜在的增强 NLP 工具的可能性。

Sep, 2023

PreCogIIITH 在 HinglishEval 的表现：利用代码混合指标和语言模型嵌入估计代码混合的质量

本文研究语言混合的机器生成问题，在低资源情况下基于评价因素预测合成质量，以应对数据扩充的需求。

Jun, 2022

HinGE：一份用于生成和评估代码混合 Hinglish 文本的数据集

该论文介绍了一种生成用于混合语言的数据集 HinGE，旨在解决在多语言混合文本和语音中对生成文本进行评估的不足，并证明常用的评估度量标准在混合文本数据上的无效性。该数据集有助于混合语言的自然语言生成研究的进展。

Jul, 2021

PMIndia -- 印度语言平行语料库集合

本研究提供了一个新的公开平行语料库（PMIndia），其中包含 13 种主要印度语言和英语的成对平行句子，每种语言对包含高达 56000 个句子。该语料库的构建及两种不同自动句子对齐方法的评估被描述，同时还介绍了该语料库在 NMT 方面的一些初步结果。

Jan, 2020

SentMix-3L: 面向情感分析的孟加拉 - 英语 - 印地语混合代码数据集

本论文介绍了 SentMix-3L，一个包含三种语言（孟加拉语、英语和印地语）的代码混合情感分析数据集，并通过对 SentMix-3L 的全面评估表明，采用 GPT-3.5 的零次提示能够在 SentMix-3L 上胜过所有基于变压器的模型。

Oct, 2023

利用短语对注入和语料过滤改进机器翻译

本论文表明，短语注入和语料库过滤的组合提高了神经机器翻译 (NMT) 系统的性能。我们从伪平行语料库中提取并增广平行短语和句子，以此训练 NMT 模型。在 Hindi-Marathi、English-Marathi 和 English-Pashto 这 3 种低资源语言对和 6 种翻译方向上，我们观察到了 NMT 系统的改进，并在 FLORES 测试数据上提高了 2.7 BLEU 分，这些 BLEU 分数改进是基于使用整个伪平行语料库和平行语料库增广的模型。

Jan, 2023