PreCogIIITH 在 HinglishEval 的表现：利用代码混合指标和语言模型嵌入估计代码混合的质量

Jun, 2022

PreCogIIITH 在 HinglishEval 的表现：利用代码混合指标和语言模型嵌入估计代码混合的质量

PreCogIIITH at HinglishEval : Leveraging Code-Mixing Metrics & Language Model Embeddings To Estimate Code-Mix Quality

Prashant Kodali, Tanmay Sachan, Akshay Goindani, Anmol Goel, Naman Ahuja...

TL;DR本文研究语言混合的机器生成问题，在低资源情况下基于评价因素预测合成质量，以应对数据扩充的需求。

Abstract

code-mixing is a phenomenon of mixing two or more languages in a speech event and is prevalent in multilingual societies. Given the low-resource nature of →

code-mixing low-resource machine generation data augmentation quality evaluation

发现论文，激发创造

使用 Transformer 对混合印地语文本进行质量评估的 HinglishEval：比尔积尼学院

本研究使用多语言 BERT 模型，通过比较合成和人工生成的句子之间的相似度，预测合成的 Hinglish 句子的质量，并确定影响系统生成 Code-Mixed 文本数据质量的因素。

Jun, 2022

niksss at HinglishEval：基于 BERT 的通用语境嵌入与 Catboost 用于低资源合成跨语混合 Hinglish 文本的质量评估

该论文描述了 INLG 2022 HinglishEval 挑战的系统描述。该挑战旨在研究影响混合代码文本生成系统质量的因素。任务分为两个子任务，即合成 Hinglish 数据集的质量评级预测和注释者不一致预测。我们尝试使用句子级嵌入解决这些任务，这是通过对我们文本中所有输入标记的上下文化词嵌入进行平均池化获得的。我们在产生各自任务的嵌入上尝试了各种分类器。我们最有效的系统在子任务 B 上排名第一，在子任务 A 上排名第三。

Jun, 2022

混合代碼響應的強響應代碼混合翻譯的生成和聯合學習

本文研究了混合编码（Hinglish 和 Bengalish）到英语的机器翻译问题，通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型（RCMT），并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力，通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。

Mar, 2024

JU_NLP 在 HinglishEval 的表现：对低资源代码混合的 Hinglish 文本的质量评估

本文介绍了一种基于 Bi-LSTM 的神经网络模型，用于预测合成 Hinglish 数据集的平均评分得分和不一致性得分，并在 INLG 2022 代表的 Generation Challenge 中达到了 F1 得分为 0.11 和平均平方误差为 6.0 的平均评分得分预测任务的成果，以及 F1 得分为 0.18 和平均平方误差为 5.0 的不一致性得分预测任务的成果。

Jun, 2022

HinGE：一份用于生成和评估代码混合 Hinglish 文本的数据集

该论文介绍了一种生成用于混合语言的数据集 HinGE，旨在解决在多语言混合文本和语音中对生成文本进行评估的不足，并证明常用的评估度量标准在混合文本数据上的无效性。该数据集有助于混合语言的自然语言生成研究的进展。

Jul, 2021

利用语言识别提升混合编码文本分类

本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能，并测试了不同的指标，如准确性、精确度、召回率和 F1 分数，以证明语言增强的重要性，以应用于文本情感分析、仇恨言论检测和情感检测等任务

Jun, 2023

探索文本到文本变换器的使用，实现英语到印地语机器翻译的合成混合代码技术

本研究尝试解决单语言和混合编码语言之间的翻译问题，针对单语英文到 Hinglish 的转换，我们提出了多种模型，其中使用事先训练的 mT5 和 mBART Transformer-based 编码器 - 解码器模型表现良好。同时，我们还提出了一种生成混合编码文本的无依存方法，并采用课程学习方法来提高语言模型性能。在不同的条件下，我们发现综合考虑有监督和无监督方式的生成代码混合技术竞争力强，在英语 - Hinglish 官方共享任务中我们的模型效果最佳。

May, 2021

SentMix-3L: 面向情感分析的孟加拉 - 英语 - 印地语混合代码数据集

本论文介绍了 SentMix-3L，一个包含三种语言（孟加拉语、英语和印地语）的代码混合情感分析数据集，并通过对 SentMix-3L 的全面评估表明，采用 GPT-3.5 的零次提示能够在 SentMix-3L 上胜过所有基于变压器的模型。

Oct, 2023

从人类评判到预测模型：解析混合代码句子的可接受性

当前分析或生成混合代码句子的计算方法没有明确建模混合代码句子的 “自然性” 或 “可接受性”，但依赖于训练语料库来反映可接受的混合代码句子的分布。建模混合文本的可接受性可以帮助区分自然的混合文本，并实现质量控制的混合文本生成。为此，我们构建了 Cline 数据集，其中含有英语 - 印地语 (en-hi) 混合文本的人工可接受性判断。Cline 是其类别中最大的数据集，包含 16,642 个句子，其中包括两个来源的样本：合成混合文本和从在线社交媒体上收集的样本。我们的分析表明，用于过滤 / 筛选 / 比较混合文本语料库的流行混合代码指标（如 CMI、转换点数、突发度）与人工可接受性判断之间的相关性较低，凸显了我们数据集的必要性。使用 Cline 进行的实验证明，仅基于混合代码指标训练的简单多层感知机 (MLP) 模型被细调的预训练多语言大型语言模型 (MLLMs) 在具有挑战性的数据设置中表现更佳。具体而言，XLM-Roberta 和 Bernice 在不同配置中优于 IndicBERT。与 ChatGPT 的零和几个样本能力的比较表明，基于更大数据集进行细调的 MLLMs 优于 ChatGPT，在混合代码任务中提供了改进的空间。使用我们的模型检查点进行从英语 - 印地语到英语 - 特鲁古语的零样本转移可接受性判断，超过了随机基线，可以应用于其他混合语言对，并提供了进一步的研究方向。我们公开发布了我们的人工标注数据集、训练检查点、混合文本语料库和数据生成以及模型训练的代码。

May, 2024

L3Cube-HingCorpus 和 HingBERT：一种混合编码印地语 - 英语数据集和 BERT 语言模型

该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型，并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。

Apr, 2022