利用分层 Transformer 深入理解混合编码语言语义

Apr, 2022

利用分层 Transformer 深入理解混合编码语言语义

A Comprehensive Understanding of Code-mixed Language Semantics using Hierarchical Transformer

Ayan Sengupta, Tharun Suresh, Md Shad Akhtar, Tanmoy Chakraborty

TL;DR采用分层变压器的架构（HIT）学习混合代码语言的语义和语法结构，在 17 个数据集和 9 个自然语言处理任务中，HIT 模型都表现出超越最先进的代码混合表示学习和多语言模型的性能。

Abstract

Being a popular mode of text-based communication in multilingual communities, code-mixing in online social media has became an important subject to study. Learning the semantics and morphology of code-mixed langu

code-mixing multilingual communities transformer-based architecture indian languages nlp tasks

发现论文，激发创造

HIT: 一种分层融合的深度注意力网络，用于鲁棒的混合语言表示

本文提出了 HIT 作为一种针对码 - 混合文本的健壮的表示学习方法，该方法用层次化 transformer 框架来抓取词语间的语义关系，并使用融合注意机制来层次性地学习句子级别的语义。实验结果表明，HIT 在 11 个数据集上的 4 个 NLP 任务中显著提高了性能，并且在迁移学习环境中显示了学到的表示的适应性。

May, 2021

探索文本到文本变换器的使用，实现英语到印地语机器翻译的合成混合代码技术

本研究尝试解决单语言和混合编码语言之间的翻译问题，针对单语英文到 Hinglish 的转换，我们提出了多种模型，其中使用事先训练的 mT5 和 mBART Transformer-based 编码器 - 解码器模型表现良好。同时，我们还提出了一种生成混合编码文本的无依存方法，并采用课程学习方法来提高语言模型性能。在不同的条件下，我们发现综合考虑有监督和无监督方式的生成代码混合技术竞争力强，在英语 - Hinglish 官方共享任务中我们的模型效果最佳。

May, 2021

使用变形金刚和多任务学习识别混合代码社交媒体文本中的情感 - 在 SemEval-2020 任务 9 中的 UPB

本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统，用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案，我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现，平均 F1 得分为 0.6850，对于西班牙语 - 英语任务，我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064，排名团队第 17 位 (29 个参赛者中).

Sep, 2020

利用语言识别提升混合编码文本分类

本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能，并测试了不同的指标，如准确性、精确度、召回率和 F1 分数，以证明语言增强的重要性，以应用于文本情感分析、仇恨言论检测和情感检测等任务

Jun, 2023

编码 - 解码架构用于代码混合搜索查询翻译的研究

本文提出了一种基于转换器的方法，用于对搜索查询进行代码混合翻译，以使用户能够使用这些查询进行搜索，并通过预训练的编码器 - 解码器模型的有效性来证明该方法。此外，为了减少模型的延迟，我们使用了知识蒸馏和权重量化。经过实验评估和 A/B 测试，证明了所提出方法的有效性。现在该模型已应用于 Flipkart 应用程序和网站，处理数百万查询。

Aug, 2022

预训练 BERT 模型在印地语 - 英语混合数据中的比较研究

本研究专注于解决 “Code Mixed” 现象在低资源的印地语 - 英语多语混合情况下对自然语言处理所带来的问题，并通过使用预训练的 Transformer-based Models 模型，重点比较分析了 HingBERT、mBERT、AlBERT、BERT 和 RoBERTa 等不同模型的性能。研究结果显示，HingBERT 模型在实际 “Code Mixed” 文本训练的情况下取得了最优秀的表现与较大的性能提升。

May, 2023

L3Cube-HingCorpus 和 HingBERT：一种混合编码印地语 - 英语数据集和 BERT 语言模型

该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型，并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。

Apr, 2022

面向印地语 - 英语代码混合文本情感分析的子词级组合研究

本文介绍了一种采用亚词级别表示 (Subword-LSTM) 架构进行 Hindi-English 混合代码情感分析的方法，该方法能更好地学习重要的语素的情感信息，同时在包含拼写错误的高噪声文本中表现良好，比传统的方法在数据集上的准确率提高了 4-5％，并且比可用的系统在 Hi-En 混合文本的情绪分析方面性能提高了 18％。

Nov, 2016

Transformer 基于的代码混合卡纳达语 - 英语文本字级语言识别模型

本文介绍了 CIC 团队使用 Transformer 模型对 CoLI-Kenglish 数据集进行词级别语言鉴别的系统描述，其中提出了在 NLP 中使用 code-mixed 数据的研究，并探讨了社交媒体的影响。该模型在数据集中取得了 0.84 的加权 F1 分数和 0.61 的宏 F1 分数。

Nov, 2022

混合代碼響應的強響應代碼混合翻譯的生成和聯合學習

本文研究了混合编码（Hinglish 和 Bengalish）到英语的机器翻译问题，通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型（RCMT），并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力，通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。

Mar, 2024