niksss at HinglishEval：基于 BERT 的通用语境嵌入与 Catboost 用于低资源合成跨语混合 Hinglish 文本的质量评估

Jun, 2022

niksss at HinglishEval：基于 BERT 的通用语境嵌入与 Catboost 用于低资源合成跨语混合 Hinglish 文本的质量评估

niksss at HinglishEval: Language-agnostic BERT-based Contextual Embeddings with Catboost for Quality Evaluation of the Low-Resource Synthetically Generated Code-Mixed Hinglish Text

PDF

Nikhil Singh

TL;DR该论文描述了 INLG 2022 HinglishEval 挑战的系统描述。该挑战旨在研究影响混合代码文本生成系统质量的因素。任务分为两个子任务，即合成 Hinglish 数据集的质量评级预测和注释者不一致预测。我们尝试使用句子级嵌入解决这些任务，这是通过对我们文本中所有输入标记的上下文化词嵌入进行平均池化获得的。我们在产生各自任务的嵌入上尝试了各种分类器。我们最有效的系统在子任务 B 上排名第一，在子任务 A 上排名第三。

Abstract

This paper describes the system description for the hinglisheval challenge at INLG 2022. The goal of this task was to investigate the factors influencing the quality of the code-mixed text generation system. The

hinglisheval code-mixed text generation system quality rating prediction sentence-level embeddings classifiers

发现论文，激发创造

JU_NLP 在 HinglishEval 的表现：对低资源代码混合的 Hinglish 文本的质量评估

本文介绍了一种基于 Bi-LSTM 的神经网络模型，用于预测合成 Hinglish 数据集的平均评分得分和不一致性得分，并在 INLG 2022 代表的 Generation Challenge 中达到了 F1 得分为 0.11 和平均平方误差为 6.0 的平均评分得分预测任务的成果，以及 F1 得分为 0.18 和平均平方误差为 5.0 的不一致性得分预测任务的成果。

Jun, 2022

使用 Transformer 对混合印地语文本进行质量评估的 HinglishEval：比尔积尼学院

本研究使用多语言 BERT 模型，通过比较合成和人工生成的句子之间的相似度，预测合成的 Hinglish 句子的质量，并确定影响系统生成 Code-Mixed 文本数据质量的因素。

Jun, 2022

PreCogIIITH 在 HinglishEval 的表现：利用代码混合指标和语言模型嵌入估计代码混合的质量

本文研究语言混合的机器生成问题，在低资源情况下基于评价因素预测合成质量，以应对数据扩充的需求。

Jun, 2022

hinglishNorm -- 印地语 - 英语编码混合句子语料库用于文本规范化

我们提出了 hinglishNorm - 一组人类注释的印地语 - 英语混合句子的语料库，用于文本规范化任务，并在该语料库上展示了基线规范化结果。

Oct, 2020

HinGE：一份用于生成和评估代码混合 Hinglish 文本的数据集

该论文介绍了一种生成用于混合语言的数据集 HinGE，旨在解决在多语言混合文本和语音中对生成文本进行评估的不足，并证明常用的评估度量标准在混合文本数据上的无效性。该数据集有助于混合语言的自然语言生成研究的进展。

Jul, 2021

探索文本到文本变换器的使用，实现英语到印地语机器翻译的合成混合代码技术

本研究尝试解决单语言和混合编码语言之间的翻译问题，针对单语英文到 Hinglish 的转换，我们提出了多种模型，其中使用事先训练的 mT5 和 mBART Transformer-based 编码器 - 解码器模型表现良好。同时，我们还提出了一种生成混合编码文本的无依存方法，并采用课程学习方法来提高语言模型性能。在不同的条件下，我们发现综合考虑有监督和无监督方式的生成代码混合技术竞争力强，在英语 - Hinglish 官方共享任务中我们的模型效果最佳。

May, 2021

混合代碼響應的強響應代碼混合翻譯的生成和聯合學習

本文研究了混合编码（Hinglish 和 Bengalish）到英语的机器翻译问题，通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型（RCMT），并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力，通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。

Mar, 2024

SemEval-2020 Task 9 中的 HCMS：一种用于代码混合文本情感分析的神经网络方法

本文描述了我们在 Sentimix 印地语 - 英语任务中提交的内容，涉及对代码混合文本进行情感分类，并表现出 F1 得分为 67.1％，证明简单的卷积和注意力可能会产生合理的结果。

Jul, 2020

利用语言识别提升混合编码文本分类

本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能，并测试了不同的指标，如准确性、精确度、召回率和 F1 分数，以证明语言增强的重要性，以应用于文本情感分析、仇恨言论检测和情感检测等任务

Jun, 2023

跨语言嵌入的多语言攻击性语言识别

本文探讨了如何利用跨语境上下文词向量和迁移学习在使用资源较少的本地化语言中进行社交媒体中的冒犯内容检测，结果表明这个方法在孟加拉语、印地语和西班牙语等多种语言中的检测效率较高。

Oct, 2020