利用分层 Transformer 深入理解混合编码语言语义
本文提出了 HIT 作为一种针对码 - 混合文本的健壮的表示学习方法,该方法用层次化 transformer 框架来抓取词语间的语义关系,并使用融合注意机制来层次性地学习句子级别的语义。实验结果表明,HIT 在 11 个数据集上的 4 个 NLP 任务中显著提高了性能,并且在迁移学习环境中显示了学到的表示的适应性。
May, 2021
本研究尝试解决单语言和混合编码语言之间的翻译问题,针对单语英文到 Hinglish 的转换,我们提出了多种模型,其中使用事先训练的 mT5 和 mBART Transformer-based 编码器 - 解码器模型表现良好。同时,我们还提出了一种生成混合编码文本的无依存方法,并采用课程学习方法来提高语言模型性能。在不同的条件下,我们发现综合考虑有监督和无监督方式的生成代码混合技术竞争力强,在英语 - Hinglish 官方共享任务中我们的模型效果最佳。
May, 2021
本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统,用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案,我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现,平均 F1 得分为 0.6850,对于西班牙语 - 英语任务,我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064,排名团队第 17 位 (29 个参赛者中).
Sep, 2020
本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能,并测试了不同的指标,如准确性、精确度、召回率和 F1 分数,以证明语言增强的重要性,以应用于文本情感分析、仇恨言论检测和情感检测等任务
Jun, 2023
本文提出了一种基于转换器的方法,用于对搜索查询进行代码混合翻译,以使用户能够使用这些查询进行搜索,并通过预训练的编码器 - 解码器模型的有效性来证明该方法。此外,为了减少模型的延迟,我们使用了知识蒸馏和权重量化。经过实验评估和 A/B 测试,证明了所提出方法的有效性。现在该模型已应用于 Flipkart 应用程序和网站,处理数百万查询。
Aug, 2022
本研究专注于解决 “Code Mixed” 现象在低资源的印地语 - 英语多语混合情况下对自然语言处理所带来的问题,并通过使用预训练的 Transformer-based Models 模型,重点比较分析了 HingBERT、mBERT、AlBERT、BERT 和 RoBERTa 等不同模型的性能。研究结果显示,HingBERT 模型在实际 “Code Mixed” 文本训练的情况下取得了最优秀的表现与较大的性能提升。
May, 2023
该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型,并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。
Apr, 2022
本文介绍了一种采用亚词级别表示 (Subword-LSTM) 架构进行 Hindi-English 混合代码情感分析的方法,该方法能更好地学习重要的语素的情感信息,同时在包含拼写错误的高噪声文本中表现良好,比传统的方法在数据集上的准确率提高了 4-5%,并且比可用的系统在 Hi-En 混合文本的情绪分析方面性能提高了 18%。
Nov, 2016
本文介绍了 CIC 团队使用 Transformer 模型对 CoLI-Kenglish 数据集进行词级别语言鉴别的系统描述,其中提出了在 NLP 中使用 code-mixed 数据的研究,并探讨了社交媒体的影响。该模型在数据集中取得了 0.84 的加权 F1 分数和 0.61 的宏 F1 分数。
Nov, 2022
本文研究了混合编码(Hinglish 和 Bengalish)到英语的机器翻译问题,通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型(RCMT),并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力,通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。
Mar, 2024