hinglishNorm -- 印地语 - 英语编码混合句子语料库用于文本规范化
该论文介绍了一种生成用于混合语言的数据集 HinGE,旨在解决在多语言混合文本和语音中对生成文本进行评估的不足,并证明常用的评估度量标准在混合文本数据上的无效性。该数据集有助于混合语言的自然语言生成研究的进展。
Jul, 2021
本研究使用多语言 BERT 模型,通过比较合成和人工生成的句子之间的相似度,预测合成的 Hinglish 句子的质量,并确定影响系统生成 Code-Mixed 文本数据质量的因素。
Jun, 2022
该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型,并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。
Apr, 2022
本文介绍了一个包含 13,738 个混合使用英语和印地语的句子及其相应英文翻译的平行语料库,并释放这个语料库以方便未来对混合语言机器翻译的研究机会
Apr, 2020
本文介绍了一种基于 Bi-LSTM 的神经网络模型,用于预测合成 Hinglish 数据集的平均评分得分和不一致性得分,并在 INLG 2022 代表的 Generation Challenge 中达到了 F1 得分为 0.11 和平均平方误差为 6.0 的平均评分得分预测任务的成果,以及 F1 得分为 0.18 和平均平方误差为 5.0 的不一致性得分预测任务的成果。
Jun, 2022
该论文描述了 INLG 2022 HinglishEval 挑战的系统描述。该挑战旨在研究影响混合代码文本生成系统质量的因素。任务分为两个子任务,即合成 Hinglish 数据集的质量评级预测和注释者不一致预测。我们尝试使用句子级嵌入解决这些任务,这是通过对我们文本中所有输入标记的上下文化词嵌入进行平均池化获得的。我们在产生各自任务的嵌入上尝试了各种分类器。我们最有效的系统在子任务 B 上排名第一,在子任务 A 上排名第三。
Jun, 2022
本文讨论了在 WMT 2022 共享任务中使用 mBART 进行处理特殊预处理和后处理(从 Devanagari 到 Roman 的音译),以解决单语到机器混合翻译的任务,并讨论了针对机器混合 Hinglish 到单语英语的翻译实验。
Oct, 2022
本研究的动机是为了鼓励混合语言的印度命名实体识别,提出了一种从维基百科分类页面生成跨脚本印地语 - 英语语料库的方法,并在多种机器学习算法上进行了评估取得了良好结果。
Oct, 2018
该研究旨在解决低资源条件下代码混合翻译的问题,在数据生成和典藏方面投入了大量精力,通过限制解码效果得出最佳翻译结果,使用现有的机器翻译模型和对齐增强的预训练技术进行探索,最终实现了对应子任务最佳表现。
Oct, 2022
该研究提出了一种用于生成马拉地语 - 英语混合文本的算法,并通过 Code Mixing Index(CMI)和 Degree of Code Mixing(DCM)指标进行评估,结果表明该算法能够生成有效和可理解的混合语句子,为多语社会中的语言差距提供了潜在的增强 NLP 工具的可能性。
Sep, 2023