一种快速、紧凑、准确的混合语言文本语种识别模型
本研究通过实现多通道神经网络结合 CNN 和 LSTM 的方法和 Bi-LSTM-CRF 上下文捕捉模块,成功实现了对混合代码数据的单词级别的语言识别,准确率高达 93.28%和 93.32%。
Aug, 2018
研究发现,针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳,而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务,这些模型在混合编码数据上的表现稍微优于非混合编码数据。
May, 2024
本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能,并测试了不同的指标,如准确性、精确度、召回率和 F1 分数,以证明语言增强的重要性,以应用于文本情感分析、仇恨言论检测和情感检测等任务
Jun, 2023
本文提出一种基于深度长短期记忆 (LSTM) 模型的有监督学习方法,针对社交媒体上的低资源孟加拉语 - 英语混合数据的单词级别语言识别问题,采用字符编码和词根编码两种方法训练模型,并使用堆叠和阈值技术创建两个集成模型,在测试数据上分别获得了 91.78% 和 92.35% 的准确率。
Mar, 2018
本文介绍了 CIC 团队使用 Transformer 模型对 CoLI-Kenglish 数据集进行词级别语言鉴别的系统描述,其中提出了在 NLP 中使用 code-mixed 数据的研究,并探讨了社交媒体的影响。该模型在数据集中取得了 0.84 的加权 F1 分数和 0.61 的宏 F1 分数。
Nov, 2022
最近大型语言模型的进展不仅在英语中,还在非英语语言中完成了复杂语言任务的执行。然而,大多数语言模型的分词器(如 Llama)在训练时采用的是以英语为中心的语料库,往往会在非英语语言中过度分词。针对这个问题,我们的研究引入了一种新颖的框架,旨在加快这些语言的文本生成。此框架预测的语言单元较传统的多语言分词器更大,并且专门针对目标语言进行了定制,从而减少了所需的解码步骤。我们的实证结果表明,与标准解码相比,所提出的框架将生成速度提高了 1.9 倍,同时在单语任务上保持了预训练多语言模型的性能。
Jan, 2024
当前分析或生成混合代码句子的计算方法没有明确建模混合代码句子的 “自然性” 或 “可接受性”,但依赖于训练语料库来反映可接受的混合代码句子的分布。建模混合文本的可接受性可以帮助区分自然的混合文本,并实现质量控制的混合文本生成。为此,我们构建了 Cline 数据集,其中含有英语 - 印地语 (en-hi) 混合文本的人工可接受性判断。Cline 是其类别中最大的数据集,包含 16,642 个句子,其中包括两个来源的样本:合成混合文本和从在线社交媒体上收集的样本。我们的分析表明,用于过滤 / 筛选 / 比较混合文本语料库的流行混合代码指标(如 CMI、转换点数、突发度)与人工可接受性判断之间的相关性较低,凸显了我们数据集的必要性。使用 Cline 进行的实验证明,仅基于混合代码指标训练的简单多层感知机 (MLP) 模型被细调的预训练多语言大型语言模型 (MLLMs) 在具有挑战性的数据设置中表现更佳。具体而言,XLM-Roberta 和 Bernice 在不同配置中优于 IndicBERT。与 ChatGPT 的零和几个样本能力的比较表明,基于更大数据集进行细调的 MLLMs 优于 ChatGPT,在混合代码任务中提供了改进的空间。使用我们的模型检查点进行从英语 - 印地语到英语 - 特鲁古语的零样本转移可接受性判断,超过了随机基线,可以应用于其他混合语言对,并提供了进一步的研究方向。我们公开发布了我们的人工标注数据集、训练检查点、混合文本语料库和数据生成以及模型训练的代码。
May, 2024
本文提出了一种实时语音检测方法,采用 Capsule Networks 架构,能以高达 91.8%的准确率检测出 5 秒音频片段中的口语语言,数据要求和预处理工作较少。
Jul, 2020
本文研究如何使用深度学习方法提高混合语言识别的准确性,提出了包括使用 Residual CNN+GRU 模型,以及使用自动语音识别(ASR)作为辅助任务的多任务预训练方法等两种有效方法,并且通过使用单语语料库以及数据上采样等方法来创造真正的混合语言数据集,最终实验结果显示,本文提出的模型在英汉混合语言语音识别准确度上超过了之前的基准模型约 55.3%。
May, 2023
提出了一种基于图神经网络和变压器的跨语言灾难相关文本分类系统,该系统可以在有限的监督下工作,并在多种语言和单语言情境下进行分类。在英语、非英语和单语数据集上测试,该系统的加权 F1 值优于现有的最先进模型和多语言 BERT 基线。
Mar, 2022