基于字符和语音的 LSTM 模型的孟加拉 - 英文混合代码文本语言识别
本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型,用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性,实验结果表明,相较于几个基准和其他基于深度学习的提出的方法,我们的方法在真实用户混合数据上取得了最先进的结果。
Jun, 2018
本研究通过实现多通道神经网络结合 CNN 和 LSTM 的方法和 Bi-LSTM-CRF 上下文捕捉模块,成功实现了对混合代码数据的单词级别的语言识别,准确率高达 93.28%和 93.32%。
Aug, 2018
本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能,并测试了不同的指标,如准确性、精确度、召回率和 F1 分数,以证明语言增强的重要性,以应用于文本情感分析、仇恨言论检测和情感检测等任务
Jun, 2023
本文介绍了一种采用亚词级别表示 (Subword-LSTM) 架构进行 Hindi-English 混合代码情感分析的方法,该方法能更好地学习重要的语素的情感信息,同时在包含拼写错误的高噪声文本中表现良好,比传统的方法在数据集上的准确率提高了 4-5%,并且比可用的系统在 Hi-En 混合文本的情绪分析方面性能提高了 18%。
Nov, 2016
本文介绍了 CIC 团队使用 Transformer 模型对 CoLI-Kenglish 数据集进行词级别语言鉴别的系统描述,其中提出了在 NLP 中使用 code-mixed 数据的研究,并探讨了社交媒体的影响。该模型在数据集中取得了 0.84 的加权 F1 分数和 0.61 的宏 F1 分数。
Nov, 2022
在这篇研究中,我们探讨了社交媒体上的冒犯性内容识别问题,特别关注多语社会中常见的音译和混合语言现象对自然语言处理系统的挑战。我们引入了一份包含 5000 条手动注释评论的音译孟加拉冒犯性语言数据集(TB-OLID),并在该数据集上对机器学习模型进行训练、微调和评估。结果显示,fBERT 和 HateBERT 等基于英语预训练的 Transformer 模型在该数据集上表现最佳。
Nov, 2023
该研究针对代码混合文本的词级别语言识别问题,构建了 CoLI-Kenglish 数据集,利用机器学习、深度学习和迁移学习方法建立和评估了 CoLI-vectors、CoLI-BiLSTM 和 CoLI-ULMFiT 学习模型,研究结果表明 CoLI-ngrams 模型在所有模型中取得了最好的效果。
Nov, 2022
本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库,结合规则和监督模型,研发了自动感知分析的混合系统,以降低标注的人工工作量;同时,通过各种测量方法,对这种混合语料库的语言和情感特征进行了定量和定性的评估。
Mar, 2018
该论文介绍了 Tri-Distil-BERT,一个用孟加拉语、英语和印地语进行预训练的多语言模型,以及在混合代码数据上微调的 Mixed-Distil-BERT 模型。这两个模型在多个 NLP 任务上进行评估,并展示出与更大的模型(如 mBERT 和 XLM-R)相竞争的性能。我们的两层预训练方法为多语言和混合代码语言理解提供了高效的选择,推动了该领域的进步。
Sep, 2023
本研究针对 Bengali 等低资源语言在社交媒体上的仇恨言论进行研究,开发了一个定量数据集并建立了基线模型和一些额外的方法以更好地进行分类。在分析误分类之后,我们确认 XLM-Roberta 在单独训练 actual 或 rominized 数据集时表现最好。而在联合训练和小样本训练中,MuRIL 通过更好地解析语义表达比其他模型表现更优秀。
Oct, 2022