L3Cube-HingCorpus 和 HingBERT：一种混合编码印地语 - 英语数据集和 BERT 语言模型

Apr, 2022

L3Cube-HingCorpus 和 HingBERT：一种混合编码印地语 - 英语数据集和 BERT 语言模型

L3Cube-HingCorpus and HingBERT: A Code Mixed Hindi-English Dataset and BERT Language Models

Ravindra Nayak, Raviraj Joshi

TL;DR该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型，并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。

Abstract

code-switching occurs when more than one language is mixed in a given sentence or a conversation. This phenomenon is more prominent on social media platforms and its adoption is increasing over time. Therefore code-mixed →

code-switching nlp pre-trained models code-mixed data hindi-english

发现论文，激发创造

预训练 BERT 模型在印地语 - 英语混合数据中的比较研究

本研究专注于解决 “Code Mixed” 现象在低资源的印地语 - 英语多语混合情况下对自然语言处理所带来的问题，并通过使用预训练的 Transformer-based Models 模型，重点比较分析了 HingBERT、mBERT、AlBERT、BERT 和 RoBERTa 等不同模型的性能。研究结果显示，HingBERT 模型在实际 “Code Mixed” 文本训练的情况下取得了最优秀的表现与较大的性能提升。

May, 2023

我的 Boli：混合马拉地语 - 英语语料库，预训练语言模型和评估基准

本文介绍了一个新的程序混合（Code-mixed）语料库及预训练模型，为印度语言 Marathi 的程序混合研究奠定了基础，并提供了三个数据集用于下游任务。

Jun, 2023

SentMix-3L: 面向情感分析的孟加拉 - 英语 - 印地语混合代码数据集

本论文介绍了 SentMix-3L，一个包含三种语言（孟加拉语、英语和印地语）的代码混合情感分析数据集，并通过对 SentMix-3L 的全面评估表明，采用 GPT-3.5 的零次提示能够在 SentMix-3L 上胜过所有基于变压器的模型。

Oct, 2023

利用语言识别提升混合编码文本分类

本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能，并测试了不同的指标，如准确性、精确度、召回率和 F1 分数，以证明语言增强的重要性，以应用于文本情感分析、仇恨言论检测和情感检测等任务

Jun, 2023

探索文本到文本变换器的使用，实现英语到印地语机器翻译的合成混合代码技术

本研究尝试解决单语言和混合编码语言之间的翻译问题，针对单语英文到 Hinglish 的转换，我们提出了多种模型，其中使用事先训练的 mT5 和 mBART Transformer-based 编码器 - 解码器模型表现良好。同时，我们还提出了一种生成混合编码文本的无依存方法，并采用课程学习方法来提高语言模型性能。在不同的条件下，我们发现综合考虑有监督和无监督方式的生成代码混合技术竞争力强，在英语 - Hinglish 官方共享任务中我们的模型效果最佳。

May, 2021

混合代碼響應的強響應代碼混合翻譯的生成和聯合學習

本文研究了混合编码（Hinglish 和 Bengalish）到英语的机器翻译问题，通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型（RCMT），并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力，通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。

Mar, 2024

使用 Transformer 对混合印地语文本进行质量评估的 HinglishEval：比尔积尼学院

本研究使用多语言 BERT 模型，通过比较合成和人工生成的句子之间的相似度，预测合成的 Hinglish 句子的质量，并确定影响系统生成 Code-Mixed 文本数据质量的因素。

Jun, 2022

PHINC: 一个面向机器翻译的平行 Hinglish 社交媒体混合语料库

本文介绍了一个包含 13,738 个混合使用英语和印地语的句子及其相应英文翻译的平行语料库，并释放这个语料库以方便未来对混合语言机器翻译的研究机会

Apr, 2020

编码 - 解码架构用于代码混合搜索查询翻译的研究

本文提出了一种基于转换器的方法，用于对搜索查询进行代码混合翻译，以使用户能够使用这些查询进行搜索，并通过预训练的编码器 - 解码器模型的有效性来证明该方法。此外，为了减少模型的延迟，我们使用了知识蒸馏和权重量化。经过实验评估和 A/B 测试，证明了所提出方法的有效性。现在该模型已应用于 Flipkart 应用程序和网站，处理数百万查询。

Aug, 2022

Gui at MixMT 2022: 英印混杂数据的机器翻译方法

本文讨论了在 WMT 2022 共享任务中使用 mBART 进行处理特殊预处理和后处理（从 Devanagari 到 Roman 的音译），以解决单语到机器混合翻译的任务，并讨论了针对机器混合 Hinglish 到单语英语的翻译实验。

Oct, 2022