携手合作：利用单语树库解析混合代码数据

ACLMar, 2017

携手合作：利用单语树库解析混合代码数据

Joining Hands: Exploiting Monolingual Treebanks for Parsing of Code-mixing Data

Irshad Ahmad Bhat, Riyaz Ahmad Bhat, Manish Shrivastava, Dipti Misra Sharma

TL;DR本文提出了一种有效且资源占用较少的策略来解析混合编码数据，利用现有的单一语言标注资源进行训练，相比专业领域的方法，这些方法可以取得显着更好的结果。同时，我们还提供了一个包含 450 个印地文和英文编码混合推文数据集及其通用依存分析标注结果，用于评估这些方法。

Abstract

In this paper, we propose efficient and less resource-intensive strategies for parsing of code-mixed data. These strategies are not constrained by in-domain annotations, rather they leverage pre-existing monoling

code-mixed data parsing monolingual resources hindi-english universal dependencies

发现论文，激发创造

Hindi-English 混合语的通用依存句法分析

本文研究代码切换数据的句法分析，提出了规范化和反回译模型的解码过程，以及利用词性标注和句法树注释的神经堆叠模型。结果显示，我们的神经叠加分析器比增强分析模型优越 1.5％LAS 点，并且我们的解码过程比第一个最佳规范化和 / 或反回译提高了 3.8％LAS 点。

Apr, 2018

利用多类型树库进行深度多任务学习的解析

本文提出了一种基于多任务学习的通用框架，将多类型树库结合起来，通过多级参数共享提高依存解析模型的性能，实验表明该方法可以有效地利用任意源树库来提高目标解析模型的性能。

Jun, 2016

使用混合编码树库进行跨语言依存分析

该研究探讨了使用代码混合的方式进行多语言句法依存关系知识传递的方法，并利用跨语言词向量在目标语言中转移句法知识的效果，结果显示代码混合的方法比传统的翻译方式更加有效。

Sep, 2019

利用语言识别提升混合编码文本分类

本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能，并测试了不同的指标，如准确性、精确度、召回率和 F1 分数，以证明语言增强的重要性，以应用于文本情感分析、仇恨言论检测和情感检测等任务

Jun, 2023

为情感分析准备孟加拉英语混合编码语料库

本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库，结合规则和监督模型，研发了自动感知分析的混合系统，以降低标注的人工工作量；同时，通过各种测量方法，对这种混合语料库的语言和情感特征进行了定量和定性的评估。

Mar, 2018

使用异构树库进行的解析器训练

本文提出了一种基于树库嵌入的新方法，以改进现有多种树库的依存关系分析器，实验证明这种方法相比于现有的许多策略要好，可以大大提高自然语言处理中的性能

May, 2018

利用多语言 BERT、小语料库和小树库进行分析

本文提出在多语种低资源场景下采用语言特定的预训练和词汇扩充以适应多语种模型并使用所提出方法对四种语言进行案例研究，结果显示这些方法可以显著提高性能，特别是在最低资源的情况下，并证明了模型的预训练数据与目标语言变体之间的关系的重要性。

Sep, 2020

混合代碼響應的強響應代碼混合翻譯的生成和聯合學習

本文研究了混合编码（Hinglish 和 Bengalish）到英语的机器翻译问题，通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型（RCMT），并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力，通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。

Mar, 2024

有限资源下的跨语言句法转移

本文提出了一种简单而有效的方法，可以在没有大量翻译数据的情况下进行跨语言的句法转移，这种方法基于三个步骤：1）推导跨语言单词簇的方法，可用于多语言解析器；2）将目标语言的词汇信息转移到源语言树库；3）将这些步骤与 Rasooli 和 Collins（2015）的密度驱动注释投影方法相结合。该方法在多个语言中实现了针对先前工作的最新进展，在只使用比利时圣经作为翻译数据的情况下，与以前的工作相比，Europarl 语料库的结果表现出额外的提升。最后，作者在通用依赖语料库的 38 个数据集上进行了结果展示。

Oct, 2016

我的 Boli：混合马拉地语 - 英语语料库，预训练语言模型和评估基准

本文介绍了一个新的程序混合（Code-mixed）语料库及预训练模型，为印度语言 Marathi 的程序混合研究奠定了基础，并提供了三个数据集用于下游任务。

Jun, 2023