从人类评判到预测模型：解析混合代码句子的可接受性

May, 2024

从人类评判到预测模型：解析混合代码句子的可接受性

From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences

Prashant Kodali, Anmol Goel, Likhith Asapu, Vamshi Krishna Bonagiri, Anirudh Govil...

TL;DR当前分析或生成混合代码句子的计算方法没有明确建模混合代码句子的 “自然性” 或 “可接受性”，但依赖于训练语料库来反映可接受的混合代码句子的分布。建模混合文本的可接受性可以帮助区分自然的混合文本，并实现质量控制的混合文本生成。为此，我们构建了 Cline 数据集，其中含有英语 - 印地语 (en-hi) 混合文本的人工可接受性判断。Cline 是其类别中最大的数据集，包含 16,642 个句子，其中包括两个来源的样本：合成混合文本和从在线社交媒体上收集的样本。我们的分析表明，用于过滤 / 筛选 / 比较混合文本语料库的流行混合代码指标（如 CMI、转换点数、突发度）与人工可接受性判断之间的相关性较低，凸显了我们数据集的必要性。使用 Cline 进行的实验证明，仅基于混合代码指标训练的简单多层感知机 (MLP) 模型被细调的预训练多语言大型语言模型 (MLLMs) 在具有挑战性的数据设置中表现更佳。具体而言，XLM-Roberta 和 Bernice 在不同配置中优于 IndicBERT。与 ChatGPT 的零和几个样本能力的比较表明，基于更大数据集进行细调的 MLLMs 优于 ChatGPT，在混合代码任务中提供了改进的空间。使用我们的模型检查点进行从英语 - 印地语到英语 - 特鲁古语的零样本转移可接受性判断，超过了随机基线，可以应用于其他混合语言对，并提供了进一步的研究方向。我们公开发布了我们的人工标注数据集、训练检查点、混合文本语料库和数据生成以及模型训练的代码。

Abstract

Current computational approaches for analysing or generating code-mixed sentences do not explicitly model "naturalness" or "acceptability" of cod

code-mixed sentences naturalness acceptability human judgement human-annotated dataset

发现论文，激发创造

代码混合情感和仇恨言论预测

研究发现，针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳，而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务，这些模型在混合编码数据上的表现稍微优于非混合编码数据。

May, 2024

PreCogIIITH 在 HinglishEval 的表现：利用代码混合指标和语言模型嵌入估计代码混合的质量

本文研究语言混合的机器生成问题，在低资源情况下基于评价因素预测合成质量，以应对数据扩充的需求。

Jun, 2022

为情感分析准备孟加拉英语混合编码语料库

本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库，结合规则和监督模型，研发了自动感知分析的混合系统，以降低标注的人工工作量；同时，通过各种测量方法，对这种混合语料库的语言和情感特征进行了定量和定性的评估。

Mar, 2018

SentMix-3L: 面向情感分析的孟加拉 - 英语 - 印地语混合代码数据集

本论文介绍了 SentMix-3L，一个包含三种语言（孟加拉语、英语和印地语）的代码混合情感分析数据集，并通过对 SentMix-3L 的全面评估表明，采用 GPT-3.5 的零次提示能够在 SentMix-3L 上胜过所有基于变压器的模型。

Oct, 2023

一种用于印地语 - 英语混合编码数据情感分析的集成模型

本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型，用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性，实验结果表明，相较于几个基准和其他基于深度学习的提出的方法，我们的方法在真实用户混合数据上取得了最先进的结果。

Jun, 2018

利用语言识别提升混合编码文本分类

本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能，并测试了不同的指标，如准确性、精确度、召回率和 F1 分数，以证明语言增强的重要性，以应用于文本情感分析、仇恨言论检测和情感检测等任务

Jun, 2023

SemEval-2020 Task 9 中的 HCMS：一种用于代码混合文本情感分析的神经网络方法

本文描述了我们在 Sentimix 印地语 - 英语任务中提交的内容，涉及对代码混合文本进行情感分类，并表现出 F1 得分为 67.1％，证明简单的卷积和注意力可能会产生合理的结果。

Jul, 2020

我的 Boli：混合马拉地语 - 英语语料库，预训练语言模型和评估基准

本文介绍了一个新的程序混合（Code-mixed）语料库及预训练模型，为印度语言 Marathi 的程序混合研究奠定了基础，并提供了三个数据集用于下游任务。

Jun, 2023

通过本地样本混合改善混合语言仇恨检测：印地语 - 英语混合场景的案例研究

在这篇论文中，我们通过严格的实证实验填补了多语言语言模型在混合代码环境中对恶意检测的评估不足，并观察到加入少量本地恶意样本以及仅使用本地样本对于提高混合代码恶意检测的效果以及可视化注意力对于定位表达恶意意图的词语在混合代码语境中是有帮助的。

May, 2024

L3Cube-HingCorpus 和 HingBERT：一种混合编码印地语 - 英语数据集和 BERT 语言模型

该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型，并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。

Apr, 2022