基于字符和语音的 LSTM 模型的孟加拉 - 英文混合代码文本语言识别

Mar, 2018

基于字符和语音的 LSTM 模型的孟加拉 - 英文混合代码文本语言识别

Language Identification of Bengali-English Code-Mixed data using Character & Phonetic based LSTM Models

Soumil Mandal, Sourya Dipta Das, Dipankar Das

TL;DR本文提出一种基于深度长短期记忆 (LSTM) 模型的有监督学习方法，针对社交媒体上的低资源孟加拉语 - 英语混合数据的单词级别语言识别问题，采用字符编码和词根编码两种方法训练模型，并使用堆叠和阈值技术创建两个集成模型，在测试数据上分别获得了 91.78% 和 92.35% 的准确率。

Abstract

language identification of social media text still remains a challenging task due to properties like code-mixing and inconsistent

language identification social media text code-mixing phonetic transliterations bengali-english

发现论文，激发创造

一种用于印地语 - 英语混合编码数据情感分析的集成模型

本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型，用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性，实验结果表明，相较于几个基准和其他基于深度学习的提出的方法，我们的方法在真实用户混合数据上取得了最先进的结果。

Jun, 2018

使用多通道神经网络和上下文捕捉进行代码混合数据的语言识别

本研究通过实现多通道神经网络结合 CNN 和 LSTM 的方法和 Bi-LSTM-CRF 上下文捕捉模块，成功实现了对混合代码数据的单词级别的语言识别，准确率高达 93.28％和 93.32％。

Aug, 2018

利用语言识别提升混合编码文本分类

本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能，并测试了不同的指标，如准确性、精确度、召回率和 F1 分数，以证明语言增强的重要性，以应用于文本情感分析、仇恨言论检测和情感检测等任务

Jun, 2023

面向印地语 - 英语代码混合文本情感分析的子词级组合研究

本文介绍了一种采用亚词级别表示 (Subword-LSTM) 架构进行 Hindi-English 混合代码情感分析的方法，该方法能更好地学习重要的语素的情感信息，同时在包含拼写错误的高噪声文本中表现良好，比传统的方法在数据集上的准确率提高了 4-5％，并且比可用的系统在 Hi-En 混合文本的情绪分析方面性能提高了 18％。

Nov, 2016

Transformer 基于的代码混合卡纳达语 - 英语文本字级语言识别模型

本文介绍了 CIC 团队使用 Transformer 模型对 CoLI-Kenglish 数据集进行词级别语言鉴别的系统描述，其中提出了在 NLP 中使用 code-mixed 数据的研究，并探讨了社交媒体的影响。该模型在数据集中取得了 0.84 的加权 F1 分数和 0.61 的宏 F1 分数。

Nov, 2022

识别转写和混合编码的孟加拉语冒犯性语言

在这篇研究中，我们探讨了社交媒体上的冒犯性内容识别问题，特别关注多语社会中常见的音译和混合语言现象对自然语言处理系统的挑战。我们引入了一份包含 5000 条手动注释评论的音译孟加拉冒犯性语言数据集（TB-OLID），并在该数据集上对机器学习模型进行训练、微调和评估。结果显示，fBERT 和 HateBERT 等基于英语预训练的 Transformer 模型在该数据集上表现最佳。

Nov, 2023

CoLI-Machine Learning 在卡纳达语 - 英语文本的词级别混合语言识别中的应用

该研究针对代码混合文本的词级别语言识别问题，构建了 CoLI-Kenglish 数据集，利用机器学习、深度学习和迁移学习方法建立和评估了 CoLI-vectors、CoLI-BiLSTM 和 CoLI-ULMFiT 学习模型，研究结果表明 CoLI-ngrams 模型在所有模型中取得了最好的效果。

Nov, 2022

为情感分析准备孟加拉英语混合编码语料库

本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库，结合规则和监督模型，研发了自动感知分析的混合系统，以降低标注的人工工作量；同时，通过各种测量方法，对这种混合语料库的语言和情感特征进行了定量和定性的评估。

Mar, 2018

混合 Distil-BERT：用于孟加拉语、英语和印地语的混合语言建模

该论文介绍了 Tri-Distil-BERT，一个用孟加拉语、英语和印地语进行预训练的多语言模型，以及在混合代码数据上微调的 Mixed-Distil-BERT 模型。这两个模型在多个 NLP 任务上进行评估，并展示出与更大的模型（如 mBERT 和 XLM-R）相竞争的性能。我们的两层预训练方法为多语言和混合代码语言理解提供了高效的选择，推动了该领域的进步。

Sep, 2023

孟加拉语仇恨言论和冒犯性语言检测

本研究针对 Bengali 等低资源语言在社交媒体上的仇恨言论进行研究，开发了一个定量数据集并建立了基线模型和一些额外的方法以更好地进行分类。在分析误分类之后，我们确认 XLM-Roberta 在单独训练 actual 或 rominized 数据集时表现最好。而在联合训练和小样本训练中，MuRIL 通过更好地解析语义表达比其他模型表现更优秀。

Oct, 2022