L3Cube-HingCorpus 和 HingBERT:一种混合编码印地语 - 英语数据集和 BERT 语言模型
本研究专注于解决 “Code Mixed” 现象在低资源的印地语 - 英语多语混合情况下对自然语言处理所带来的问题,并通过使用预训练的 Transformer-based Models 模型,重点比较分析了 HingBERT、mBERT、AlBERT、BERT 和 RoBERTa 等不同模型的性能。研究结果显示,HingBERT 模型在实际 “Code Mixed” 文本训练的情况下取得了最优秀的表现与较大的性能提升。
May, 2023
本文介绍了一个新的程序混合(Code-mixed)语料库及预训练模型,为印度语言 Marathi 的程序混合研究奠定了基础,并提供了三个数据集用于下游任务。
Jun, 2023
本论文介绍了 SentMix-3L,一个包含三种语言(孟加拉语、英语和印地语)的代码混合情感分析数据集,并通过对 SentMix-3L 的全面评估表明,采用 GPT-3.5 的零次提示能够在 SentMix-3L 上胜过所有基于变压器的模型。
Oct, 2023
本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能,并测试了不同的指标,如准确性、精确度、召回率和 F1 分数,以证明语言增强的重要性,以应用于文本情感分析、仇恨言论检测和情感检测等任务
Jun, 2023
本研究尝试解决单语言和混合编码语言之间的翻译问题,针对单语英文到 Hinglish 的转换,我们提出了多种模型,其中使用事先训练的 mT5 和 mBART Transformer-based 编码器 - 解码器模型表现良好。同时,我们还提出了一种生成混合编码文本的无依存方法,并采用课程学习方法来提高语言模型性能。在不同的条件下,我们发现综合考虑有监督和无监督方式的生成代码混合技术竞争力强,在英语 - Hinglish 官方共享任务中我们的模型效果最佳。
May, 2021
本文研究了混合编码(Hinglish 和 Bengalish)到英语的机器翻译问题,通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型(RCMT),并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力,通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。
Mar, 2024
本研究使用多语言 BERT 模型,通过比较合成和人工生成的句子之间的相似度,预测合成的 Hinglish 句子的质量,并确定影响系统生成 Code-Mixed 文本数据质量的因素。
Jun, 2022
本文介绍了一个包含 13,738 个混合使用英语和印地语的句子及其相应英文翻译的平行语料库,并释放这个语料库以方便未来对混合语言机器翻译的研究机会
Apr, 2020
本文提出了一种基于转换器的方法,用于对搜索查询进行代码混合翻译,以使用户能够使用这些查询进行搜索,并通过预训练的编码器 - 解码器模型的有效性来证明该方法。此外,为了减少模型的延迟,我们使用了知识蒸馏和权重量化。经过实验评估和 A/B 测试,证明了所提出方法的有效性。现在该模型已应用于 Flipkart 应用程序和网站,处理数百万查询。
Aug, 2022
本文讨论了在 WMT 2022 共享任务中使用 mBART 进行处理特殊预处理和后处理(从 Devanagari 到 Roman 的音译),以解决单语到机器混合翻译的任务,并讨论了针对机器混合 Hinglish 到单语英语的翻译实验。
Oct, 2022