Gui at MixMT 2022: 英印混杂数据的机器翻译方法
该研究旨在解决低资源条件下代码混合翻译的问题,在数据生成和典藏方面投入了大量精力,通过限制解码效果得出最佳翻译结果,使用现有的机器翻译模型和对齐增强的预训练技术进行探索,最终实现了对应子任务最佳表现。
Oct, 2022
本研究尝试解决单语言和混合编码语言之间的翻译问题,针对单语英文到 Hinglish 的转换,我们提出了多种模型,其中使用事先训练的 mT5 和 mBART Transformer-based 编码器 - 解码器模型表现良好。同时,我们还提出了一种生成混合编码文本的无依存方法,并采用课程学习方法来提高语言模型性能。在不同的条件下,我们发现综合考虑有监督和无监督方式的生成代码混合技术竞争力强,在英语 - Hinglish 官方共享任务中我们的模型效果最佳。
May, 2021
本论文介绍了史蒂文斯理工学院提交的 WMT 2022 共享任务:混合代码机器翻译并针对该任务的两个子任务的技术改进,包括采用大型预训练多语言 NMT 模型和领域内数据集以及反向翻译和集成技术等,该系统取得了子任务 2 上的第一名和子任务 1 上的第一和第三名。
Oct, 2022
本研究使用多语言 BERT 模型,通过比较合成和人工生成的句子之间的相似度,预测合成的 Hinglish 句子的质量,并确定影响系统生成 Code-Mixed 文本数据质量的因素。
Jun, 2022
本文研究了混合编码(Hinglish 和 Bengalish)到英语的机器翻译问题,通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型(RCMT),并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力,通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。
Mar, 2024
该研究提出了一种用于生成马拉地语 - 英语混合文本的算法,并通过 Code Mixing Index(CMI)和 Degree of Code Mixing(DCM)指标进行评估,结果表明该算法能够生成有效和可理解的混合语句子,为多语社会中的语言差距提供了潜在的增强 NLP 工具的可能性。
Sep, 2023
该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型,并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。
Apr, 2022
本研究专注于解决 “Code Mixed” 现象在低资源的印地语 - 英语多语混合情况下对自然语言处理所带来的问题,并通过使用预训练的 Transformer-based Models 模型,重点比较分析了 HingBERT、mBERT、AlBERT、BERT 和 RoBERTa 等不同模型的性能。研究结果显示,HingBERT 模型在实际 “Code Mixed” 文本训练的情况下取得了最优秀的表现与较大的性能提升。
May, 2023
该论文介绍了一种生成用于混合语言的数据集 HinGE,旨在解决在多语言混合文本和语音中对生成文本进行评估的不足,并证明常用的评估度量标准在混合文本数据上的无效性。该数据集有助于混合语言的自然语言生成研究的进展。
Jul, 2021
本文关注代码切换社交媒体数据的机器翻译,在监督和非监督环境下提供了英语 - 印地语 - 英语(英 - 汉格利什)、英语 - 西班牙语 - 英语(英 - 西班格利什)和英语 - 现代标准阿拉伯语 - 埃及阿拉伯语(英 - 埃语)的语言对,分享了共同创作语言评估数据时的见解和挑战,并为共享任务中的所有语言提供了基线。在共享任务的排行榜中,共有来自 5 个不同团队的 12 个系统提交。其中最佳表现分别为英语到印地语的 12.67% BLEU 分数和现代标准阿拉伯语 - 埃及阿拉伯语到英语的 25.72% BLEU 分数。
Feb, 2022