Transformer 基于的代码混合卡纳达语 - 英语文本字级语言识别模型
该研究针对代码混合文本的词级别语言识别问题,构建了 CoLI-Kenglish 数据集,利用机器学习、深度学习和迁移学习方法建立和评估了 CoLI-vectors、CoLI-BiLSTM 和 CoLI-ULMFiT 学习模型,研究结果表明 CoLI-ngrams 模型在所有模型中取得了最好的效果。
Nov, 2022
本论文提出了一种多语言自动化系统,使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本,并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明,该系统在不同语言上表现出不同的最佳表现方法,得分最高的是 m-BERT(Kannada)和 XLM-R(Tamil 和 Malayalam),系统性能达到了一定的水平。
Feb, 2021
本研究尝试解决单语言和混合编码语言之间的翻译问题,针对单语英文到 Hinglish 的转换,我们提出了多种模型,其中使用事先训练的 mT5 和 mBART Transformer-based 编码器 - 解码器模型表现良好。同时,我们还提出了一种生成混合编码文本的无依存方法,并采用课程学习方法来提高语言模型性能。在不同的条件下,我们发现综合考虑有监督和无监督方式的生成代码混合技术竞争力强,在英语 - Hinglish 官方共享任务中我们的模型效果最佳。
May, 2021
本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能,并测试了不同的指标,如准确性、精确度、召回率和 F1 分数,以证明语言增强的重要性,以应用于文本情感分析、仇恨言论检测和情感检测等任务
Jun, 2023
本文提出一种基于深度长短期记忆 (LSTM) 模型的有监督学习方法,针对社交媒体上的低资源孟加拉语 - 英语混合数据的单词级别语言识别问题,采用字符编码和词根编码两种方法训练模型,并使用堆叠和阈值技术创建两个集成模型,在测试数据上分别获得了 91.78% 和 92.35% 的准确率。
Mar, 2018
本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统,用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案,我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现,平均 F1 得分为 0.6850,对于西班牙语 - 英语任务,我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064,排名团队第 17 位 (29 个参赛者中).
Sep, 2020
采用分层变压器的架构(HIT)学习混合代码语言的语义和语法结构,在 17 个数据集和 9 个自然语言处理任务中,HIT 模型都表现出超越最先进的代码混合表示学习和多语言模型的性能。
Apr, 2022
本文介绍了 MIDAS-IIITD 团队针对 HASOC 2021 二号子任务提出的系统,用于检测推特上混合使用印地语和英语的谈话中的仇恨言论。我们采用神经网络方法,并利用 transformer 的跨语言嵌入来进行低资源语录下的贴性言论分类,其中最佳表现的系统 [(Indic-BERT, XLM-RoBERTa, 和 Multilingual BERT) 的难度投票集成方法,Macro F1 得分达到 0.7253,排名第一。
Dec, 2021
本研究专注于解决 “Code Mixed” 现象在低资源的印地语 - 英语多语混合情况下对自然语言处理所带来的问题,并通过使用预训练的 Transformer-based Models 模型,重点比较分析了 HingBERT、mBERT、AlBERT、BERT 和 RoBERTa 等不同模型的性能。研究结果显示,HingBERT 模型在实际 “Code Mixed” 文本训练的情况下取得了最优秀的表现与较大的性能提升。
May, 2023
本文提出了一种基于转换器的方法,用于对搜索查询进行代码混合翻译,以使用户能够使用这些查询进行搜索,并通过预训练的编码器 - 解码器模型的有效性来证明该方法。此外,为了减少模型的延迟,我们使用了知识蒸馏和权重量化。经过实验评估和 A/B 测试,证明了所提出方法的有效性。现在该模型已应用于 Flipkart 应用程序和网站,处理数百万查询。
Aug, 2022