hinglishNorm -- 印地语 - 英语编码混合句子语料库用于文本规范化

COLINGOct, 2020

hinglishNorm -- 印地语 - 英语编码混合句子语料库用于文本规范化

hinglishNorm -- A Corpus of Hindi-English Code Mixed Sentences for Text Normalization

PDF

Piyush Makhija, Ankit Kumar, Anuj Gupta

TL;DR我们提出了 hinglishNorm - 一组人类注释的印地语 - 英语混合句子的语料库，用于文本规范化任务，并在该语料库上展示了基线规范化结果。

Abstract

We present hinglishnorm -- a human annotated corpus of Hindi-English code-mixed sentences for →

hinglishnorm corpus code-mixed text normalization baseline results

发现论文，激发创造

HinGE：一份用于生成和评估代码混合 Hinglish 文本的数据集

该论文介绍了一种生成用于混合语言的数据集 HinGE，旨在解决在多语言混合文本和语音中对生成文本进行评估的不足，并证明常用的评估度量标准在混合文本数据上的无效性。该数据集有助于混合语言的自然语言生成研究的进展。

Jul, 2021

使用 Transformer 对混合印地语文本进行质量评估的 HinglishEval：比尔积尼学院

本研究使用多语言 BERT 模型，通过比较合成和人工生成的句子之间的相似度，预测合成的 Hinglish 句子的质量，并确定影响系统生成 Code-Mixed 文本数据质量的因素。

Jun, 2022

L3Cube-HingCorpus 和 HingBERT：一种混合编码印地语 - 英语数据集和 BERT 语言模型

该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型，并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。

Apr, 2022

PHINC: 一个面向机器翻译的平行 Hinglish 社交媒体混合语料库

本文介绍了一个包含 13,738 个混合使用英语和印地语的句子及其相应英文翻译的平行语料库，并释放这个语料库以方便未来对混合语言机器翻译的研究机会

Apr, 2020

JU_NLP 在 HinglishEval 的表现：对低资源代码混合的 Hinglish 文本的质量评估

本文介绍了一种基于 Bi-LSTM 的神经网络模型，用于预测合成 Hinglish 数据集的平均评分得分和不一致性得分，并在 INLG 2022 代表的 Generation Challenge 中达到了 F1 得分为 0.11 和平均平方误差为 6.0 的平均评分得分预测任务的成果，以及 F1 得分为 0.18 和平均平方误差为 5.0 的不一致性得分预测任务的成果。

Jun, 2022

niksss at HinglishEval：基于 BERT 的通用语境嵌入与 Catboost 用于低资源合成跨语混合 Hinglish 文本的质量评估

该论文描述了 INLG 2022 HinglishEval 挑战的系统描述。该挑战旨在研究影响混合代码文本生成系统质量的因素。任务分为两个子任务，即合成 Hinglish 数据集的质量评级预测和注释者不一致预测。我们尝试使用句子级嵌入解决这些任务，这是通过对我们文本中所有输入标记的上下文化词嵌入进行平均池化获得的。我们在产生各自任务的嵌入上尝试了各种分类器。我们最有效的系统在子任务 B 上排名第一，在子任务 A 上排名第三。

Jun, 2022

Gui at MixMT 2022: 英印混杂数据的机器翻译方法

本文讨论了在 WMT 2022 共享任务中使用 mBART 进行处理特殊预处理和后处理（从 Devanagari 到 Roman 的音译），以解决单语到机器混合翻译的任务，并讨论了针对机器混合 Hinglish 到单语英语的翻译实验。

Oct, 2022

来自维基百科的印地语英语交叉脚本实体识别语料库

本研究的动机是为了鼓励混合语言的印度命名实体识别，提出了一种从维基百科分类页面生成跨脚本印地语 - 英语语料库的方法，并在多种机器学习算法上进行了评估取得了良好结果。

Oct, 2018

爱丁堡大学 WMT22 杂语共享任务的提交（MixMT）

该研究旨在解决低资源条件下代码混合翻译的问题，在数据生成和典藏方面投入了大量精力，通过限制解码效果得出最佳翻译结果，使用现有的机器翻译模型和对齐增强的预训练技术进行探索，最终实现了对应子任务最佳表现。

Oct, 2022

马拉地英语混合文本生成

该研究提出了一种用于生成马拉地语 - 英语混合文本的算法，并通过 Code Mixing Index（CMI）和 Degree of Code Mixing（DCM）指标进行评估，结果表明该算法能够生成有效和可理解的混合语句子，为多语社会中的语言差距提供了潜在的增强 NLP 工具的可能性。

Sep, 2023