印地语 - 英语混合社交媒体文本的浅层解析流水线

Apr, 2016

印地语 - 英语混合社交媒体文本的浅层解析流水线

Shallow Parsing Pipeline for Hindi-English Code-Mixed Social Media Text

Arnav Sharma, Sakshi Gupta, Raveesh Motlani, Piyush Bansal, Manish Srivastava...

TL;DR该研究解决了印地语 - 英语混合社交媒体文本的浅层分析问题。通过数据注释和开发语言识别器，规范器，词性标注器和浅层解析器，我们开发了一种 CSMT 浅层解析管道，并使其可用于研究社区，以便更好地分析印地语英语 CSMT。

Abstract

In this study, the problem of shallow parsing of Hindi-English code-mixed social media text (CSMT) has been addressed. We have annotated the data, developed a language identifier, a →

shallow parsing hindi-english code-mixed social media text part-of-speech tagger language identifier normalizer

发现论文，激发创造

构建奥迪亚浅层解析器

本文旨在为 shallow parsing 构建 Odia 语言的 pos 标记和 chunk 标记标注语料库，并开发出针对该语言的基线系统。

Apr, 2022

SMPOST: 用于代码混合的印度社交媒体文本的词性标注器

研究社交媒体上社会语言的使用及其对自然语言处理的影响，参考三种不同语言对的社交媒体数据，通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。

Feb, 2017

Hindi-English 混合语的通用依存句法分析

本文研究代码切换数据的句法分析，提出了规范化和反回译模型的解码过程，以及利用词性标注和句法树注释的神经堆叠模型。结果显示，我们的神经叠加分析器比增强分析模型优越 1.5％LAS 点，并且我们的解码过程比第一个最佳规范化和 / 或反回译提高了 3.8％LAS 点。

Apr, 2018

携手合作：利用单语树库解析混合代码数据

本文提出了一种有效且资源占用较少的策略来解析混合编码数据，利用现有的单一语言标注资源进行训练，相比专业领域的方法，这些方法可以取得显着更好的结果。同时，我们还提供了一个包含 450 个印地文和英文编码混合推文数据集及其通用依存分析标注结果，用于评估这些方法。

Mar, 2017

El Volumen Louder Por Favor: 任务导向的语义解析中的语码转换

本研究的重点在于 Spanglish，提出了两种数据增强方法解决 CS 样本不足问题，结合少样本的情况，使零样本和全数据的准确度差距缩小了三分之二。

Jan, 2021

使用变形金刚和多任务学习识别混合代码社交媒体文本中的情感 - 在 SemEval-2020 任务 9 中的 UPB

本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统，用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案，我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现，平均 F1 得分为 0.6850，对于西班牙语 - 英语任务，我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064，排名团队第 17 位 (29 个参赛者中).

Sep, 2020

SemEval-2020 Task 9 中的 HCMS：一种用于代码混合文本情感分析的神经网络方法

本文描述了我们在 Sentimix 印地语 - 英语任务中提交的内容，涉及对代码混合文本进行情感分类，并表现出 F1 得分为 67.1％，证明简单的卷积和注意力可能会产生合理的结果。

Jul, 2020

梵文分词和形态分析

在这篇文章中，我们描述了我们参加的梵语单词分割和形态分析比赛，并提出了一个基于序列标注来预测分割操作的单词分割方法和一个基于形态标记预测转换规则来进行形态分析的方法，同时提出了一种用于联合分割和形态分析的端到端可训练的流水线模型，在联合分割和分析子任务中取得了最好的成绩（80.018 F1 score），在单独的子任务中表现第二好（分割：96.189 F1 score / 分析：69.180 F1 score）。最后，我们分析了模型的错误并就数据和评估提出了未来的研究和可能的改进。

Jan, 2022

利用分层 Transformer 深入理解混合编码语言语义

采用分层变压器的架构（HIT）学习混合代码语言的语义和语法结构，在 17 个数据集和 9 个自然语言处理任务中，HIT 模型都表现出超越最先进的代码混合表示学习和多语言模型的性能。

Apr, 2022

评估印度语跨语言语义分析

为了解决印度语言语义分析数据集缺乏的问题，提出了适用于 11 种印度语言的 Inter-bilingual Seq2seq 语义分析数据集 IE-SEMPARSE，并在不同的训练测试策略下评估了现有的多语言 seq2seq 模型。

Apr, 2023