印地语 - 英语混合社交媒体文本的浅层解析流水线
研究社交媒体上社会语言的使用及其对自然语言处理的影响,参考三种不同语言对的社交媒体数据,通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。
Feb, 2017
本文研究代码切换数据的句法分析,提出了规范化和反回译模型的解码过程,以及利用词性标注和句法树注释的神经堆叠模型。结果显示,我们的神经叠加分析器比增强分析模型优越 1.5%LAS 点,并且我们的解码过程比第一个最佳规范化和 / 或反回译提高了 3.8%LAS 点。
Apr, 2018
本文提出了一种有效且资源占用较少的策略来解析混合编码数据,利用现有的单一语言标注资源进行训练,相比专业领域的方法,这些方法可以取得显着更好的结果。同时,我们还提供了一个包含 450 个印地文和英文编码混合推文数据集及其通用依存分析标注结果,用于评估这些方法。
Mar, 2017
本研究的重点在于 Spanglish,提出了两种数据增强方法解决 CS 样本不足问题,结合少样本的情况,使零样本和全数据的准确度差距缩小了三分之二。
Jan, 2021
本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统,用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案,我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现,平均 F1 得分为 0.6850,对于西班牙语 - 英语任务,我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064,排名团队第 17 位 (29 个参赛者中).
Sep, 2020
本文描述了我们在 Sentimix 印地语 - 英语任务中提交的内容,涉及对代码混合文本进行情感分类,并表现出 F1 得分为 67.1%,证明简单的卷积和注意力可能会产生合理的结果。
Jul, 2020
在这篇文章中,我们描述了我们参加的梵语单词分割和形态分析比赛,并提出了一个基于序列标注来预测分割操作的单词分割方法和一个基于形态标记预测转换规则来进行形态分析的方法,同时提出了一种用于联合分割和形态分析的端到端可训练的流水线模型,在联合分割和分析子任务中取得了最好的成绩(80.018 F1 score),在单独的子任务中表现第二好(分割:96.189 F1 score / 分析:69.180 F1 score)。最后,我们分析了模型的错误并就数据和评估提出了未来的研究和可能的改进。
Jan, 2022
采用分层变压器的架构(HIT)学习混合代码语言的语义和语法结构,在 17 个数据集和 9 个自然语言处理任务中,HIT 模型都表现出超越最先进的代码混合表示学习和多语言模型的性能。
Apr, 2022
为了解决印度语言语义分析数据集缺乏的问题,提出了适用于 11 种印度语言的 Inter-bilingual Seq2seq 语义分析数据集 IE-SEMPARSE,并在不同的训练测试策略下评估了现有的多语言 seq2seq 模型。
Apr, 2023